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内 容 提 要 


本 书 是 对 以 数据 深度 需求 为 中 心 的 科学 、 研 究 以 及 针对 计算 和 统计 方法 的 参考 书 。 本 书 共 
五 章 ， 每 章 介 绍 一 到 两 个 Python 数据 科学 中 的 重点 工具 包 。 首 先 从 IPython 和 Jupyter 开始 ， 它 
们 提供 了 数据 科学 家 需要 的 计算 环境 ; 第 2 章 讲解 能 提供 ndarray 对 象 的 NumPy， 它 可 以 用 
Python 高 效 地 存储 和 操作 大 型 数组 ， 第 3 章 主 要 涉及 提供 DataFrame 对 象 的 Pandas， 它 可 以 用 
下 二 有 六 二 在 信 各 可 作 老 尖 各 全 人 区 的 村 第 4 章 的 主角 是 Matplotlib， 它 为 Python 提供 
了 许多 数据 可 视 化 功能 ; 第 5 章 以 Scikit-Learn 为 主 ， 这 个 程序 库 为 最 重要 的 机 器 学 习 算 法 提供 
了 高 效 整 洁 的 Python 版 实现 。 

本 书 适合 有 编程 背景 ， 并 打算 将 开源 Python 工具 用 作 分 析 、 操 作 、 可 视 化 以 及 学 习 数 据 的 
数据 科学 研究 人 员 。 
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本 书 主要 介绍 了 Python 在 数据 科学 领域 的 基础 工具 ， 包 括 IPython、Jupyter、NumPy、 
Pandas、Matplotlib 和 Scikit-Learm。 当 然 ， 数 据 科 学 并 非 Python 一 家 之 “ 言 ”"，Scala、 
Java、R、Julia 等 编程 语言 在 此 领域 都 有 各 自 不 同 的 工具 。 至 于 要 不 要 学 Python， 我 们 认 
为 没 必 要 纠结 ， 秉 承 李 小 龙 的 武术 哲学 即 可 Absorb what is useful, discard what is not, 
and add what is uniquely your own ( 取 其 精华 ， 去 其 糟粕 ， 再 加 点 自己 的 独创 ) 。Python 的 
语法 简洁 直观 、 易 学 易 用 ， 是 表现 力 最 强 的 编程 语言 ， 学 会 它 就 可 以 让 计算 机 跟随 思想 ， 
快速 完成 许多 有 趣 的 事情 。 同 时 ， 它 也 是 备 受 欢迎 的 胶水 语言 ， 许 多 由 Java、C/C++ 语 
言 开 发 的 工具 都 会 提供 Python 接口 ， 如 Spark、H2O、TensorFlow 等 。2017 年 3 月 6 日 ， 
PyPI (https://pypi.python.org/pypi) 网 站 上 的 程序 包 数 量 就 已 经 达到 10 万 ， 新 的 程序 包 还 
在 不 断 地 涌现 ， 数 据 科学 目前 是 Python 星球 最 酷 炫 的 风景 之 一 。 如 果 数 据 科 学 问题 让 你 心 
有 挂 碍 ， 那 么 Python 这 根 数据 科学 的 蛇 杖 (Asklspigs， 阿 斯 克 勒 庇 俄 斯 之 杖 ， 医 神 手 杖 ， 
医院 的 徽章 ) 可 以 为 你 指点 迷津 。 


本 书 书稿 已 经 在 GitHub 上 开源 (https://github.com/jakevdp/PythonDataScienceHandbook)。 
由 于 本 书 的 纸 质 版 是 黑白 印刷 的 ， 因 此 作者 在 GitHub 上 建立 了 开源 项 目 ， 以 Notebook 形 
式 分享 了 本 书 的 书稿 ， 让 读者 可 以 看 到 彩色 的 可 视 化 图 。 此 外 ， 作 者 也 在 博客 (https:// 
jakevdp.github.io/PythonDataScienceHandbook/) 上 发 布 了 Notebook 的 HTML 页 面 。 除 正 
文 的 部 分 内 容 外 ，Notebook 中 的 代码 、 注 释 与 纸 质 版 相同 。 由 于 Notebook 是 类 JSON 数 
据 格式 ， 因 此 也 适合 做 版 本 管理 ， 配 合 GitHub 修复 bug 比较 方便 。 配 合 本 书 同时 开源 的 ， 
还 有 作者 编写 的 Python 入 门 教程 Whirlwind Tour of Python， 同 样 是 使 用 Notebook 撰写 的 。 
Notebook 是 IPython 的 Web 版 ， 目 前 已 经 合并 到 Jupyter (http://jupyter.org) 项 目 中 ， 是 一 
款 适合 编程 、 写 作 、 分 享 甚 至 教学 (Jupyternbgrader) 的 开源 工具 ， 其 基本 功能 将 在 本 书 
第 1 章 中 介绍 。Notebook 的 操作 十 分 简单 ， 在 浏览 器 上 即 可 运行 。 它 不 仅 可 以 在 浏览 器 中 
直接 编写 代码 、 生 成 可 视 化 图 ， 还 支持 Markdown 文本 格式 ， 能 够 在 网 页 中 快速 插入 常用 
的 Web 元 素 (标题 、 列 表 、 链 接 、 图 像 ) 乃至 Mathjax 数学 公式 ， 稍 加 调整 便 可 以 幻灯 片 
形式 播放 内 容 ， 阅 读 体验 一 级 棒 。 


看 编程 书 的 第 一 步 是 搭建 开发 环境 ， 但 这 一 步 往 往 会 吓 退 不 少 对 编程 感 兴趣 的 读者 。 本 书 
对 应 的 开发 环境 可 以 通过 三 种 方式 实现 。 第 一 种 方式 是 在 线 版 Notebook 编程 环境 ， 免 安 
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装 ， 有 神 览 器 就 可 以 学 习 编 程 知识 ， 推 荐 想 快速 掌握 知识 的 朋友 使 用 。 目 前 ， 有 许多 安装 
了 Python 编程 环境 的 Anaconda 发 行 版 的 网 络 平台 (PaaS)， 支 持 Jupyter Notebook 编程 
环境 ， 可 以 免费 使 用 ， 如 JupyterHub (https://tmpnb.org)、SageMathCloud (https://cloud. 
sagemath.com)、 微 软 Azure (https://notebooks.azure.com) 在 线 编程 环境 。 它 们 可 以 在 线 运 
行 Notebook 文件 ， 编 写 调试 运行 代码 ， 也 支持 文件 的 上 传 、 下 载 、 新 建 、 删 除 ， 还 可 以 
运行 Terminal 工具 。 另 外 ， 基 于 GitHub 代码 仓库 ， 有 nbviewer (https://nbviewer.jupyter. 
org) 可 以 查看 GitHub 的 Notebook， 还 有 binder (http://mybinder.org) 支持 代码 仓库 一 
键 部 署 ， 都 是 非常 有 趣 的 组 合 。 类 似 的 在 线 免费 Notebook 编程 环境 还 有 很 多 ， 特 别 推 
荐 德国 Yves Hilpisch 博士 的 The Python Quants Group 公司 开发 的 Python Quants Platform 
(http:/Wtpq.io) 。Yves 博士 的 三 本 Python 金融 学 图 书 均 使 用 该 编程 环境 ， 读 者 可 以 免费 注册 
使 用 ， 其 硬件 为 CPU Xeon 1231、16GB 内 存 ， 能 够 满足 一 般 的 学 习 与 分 析 需 要 。Jupyter 
Notebook 支持 许多 编程 语言 (Python、R、Scala、Julia、Haskell、Ruby*……: )， 甚 至 支持 
Kotlin (https://github.com/ligee/kotlin-jupyter)、Java 9 的 REPL 新 功能 JShell (https://github. 
com/Bachmann1234/java9_kernel)。 第 二 种 方式 是 在 电脑 上 安装 Anaconda 发 行 版 。 作 者 在 
本 书 前 言 中 介绍 了 具体 的 安装 方法 ， 安 装 成 功 后 即 可 创建 Notebook 编写 代码 。 由 于 网 络 
问题 ， 建 议 国 内 的 朋友 使 用 清华 大 学 TUNA 镜像 (https://mirror.tuna.tsinghua.edu.cn/help/ 
anaconda/) 下 载 和 更 新 Anaconda 集成 开发 环境 。 第 三 种 方式 适合 了 解 Docker (https:// 
www.docker.com/) 的 朋友 可 以 直接 使 用 Jupyter 在 GitHub 上 的 Docker 镜像 (https:// 
github.com/jupyter/docker-stacks)， 一 键 安装 ， 省 时 省 力 。 里 面 除 了 标准 Anaconda 开发 环 
境 ， 还 支持 Spark、TensorFlow 的 Notebook 开发 环境 。 


本 书 作者 Jake VanderPlus (GitHub 账号 为 @jakevdp) 目前 是 华盛顿 大 学 eScience 学 院 物 
里 科学 研究 院 院 长 。 他 既是 一 位 天 文学 家 ， 也 是 一 位 会 议 演讲 达 人 ,活跃 于 历年 的 PyData 
会 议 ， 尤 其 擅长 Python 科学 计算 与 数据 可 视 化 。Jake 在 数据 可 视 化 方面 颇 有 建树 ， 创 
建 了 altair、mpld3、JSAnimation 可 视 化 程序 库 ， 同 时 为 NumPy、Scikit-Learn、Scipy、 
Matplotlib、IPython 等 著名 Python 程序 库 做 了 大 量 贡 献 。 我 在 学 习 贝 叶 斯 估计 时 ， 从 他 
2014 年 的 系列 博文 “Frequentism vs Bayesianism”( 频 率 主 义 与 贝 叶 斯 主义 ) 中 获 益 颇 
多 。2015 年 ， 听 说 他 要 在 O'Reilly 出 版 《Python 数据 科学 手册 》 一 书 ， 一 直 持 续 关 注 ， 正 
式 版 终于 在 2016 年 年 底 发 布 。 期 间 ， 他 在 O'Reilly 做 了 一 些 Python 数据 科学 教程 ( 基 
于 O'Reilly 的 Atlas 平台 创建 Notebook， 人 代码 可 在 线 运 行 )， 介 绍 了 Pandas、Seaborn、 
Matplotlib 等 工具 。2017 年 2 月 ， 他 在 YouTube 发 布 了 一 组 视频 ， 通 过 美国 西雅图 市 弗 
雷 蒙 特 桥 上 穿行 的 自行 车 统计 数据 ， 演 示 了 Python 数据 科学 编程 的 最 佳 实践 ， 包 括 在 
Notebook 中 编码 、 重 构 、 测 试 、 发 布 程序 的 技巧 ， 可 谓 短小 精 悍 。 此 次 有 幸 能 翻译 大 神 的 
作品 ， 与 有 茉 下。 首先 感谢 图 灵 社 区 ， 尤 其 感谢 朱 钢 老师 的 再 次 大 力 支持 ， 夏 静 文 老 师 、 
刘 美 英 老 师 和 岳 新 欣 老 师 的 细致 审 校 。 也 要 感谢 一 起 合作 过 的 小 伙伴 们 ， 促 使 我 们 再 次 翻 
译 数据 科学 的 基础 教程 ， 让 更 多 用 SQL、Excel、Matlab、SPSS 的 分 析 师 了 解 Python 数据 
科学 的 工具 ， 用 数据 更 自由 地 表达 ， 讲 出 更 精彩 的 故事 。 
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类 斗 学 
什么 是 数据 科学 
这 是 一 本 介绍 Python 数据 科学 的 书 。 可 能 话音 未 落 ， 你 脑海 中 便 会 浮现 一 个 问题 : 什么 
是 数据 科学 (data science) ? 要 给 这 个 术语 下 个 定义 其 实 很 困难 ， 尤 其 它 现在 还 那么 流行 
(自然 也 众 口 难 调 )。 批 评 者 们 要 么 认为 它 是 一 个 多 余 的 标签 〈 毕 竟 哪 一 门 科 学 不 需要 数据 
呢 ) ， 要 么 认为 它 是 一 个 粉饰 简历 、 吸 引 技 术 招聘 者 眼球 的 嗪 头 。 
我 认为 这 些 批 评 都 没 抓 住 重点 。 如 果 去 掉 浮 华 累 歼 的 装饰 ， 数 据 科 学 可 能 算是 目前 为 止 对 
跨 学 科技 能 的 最 佳 称呼 ， 在 工业 界 和 学 术 界 的 诸多 应 用 中 扮演 着 越 来 越 重 要 的 角色 。 跨 
学 科 是 数据 科学 的 关键 ;我 认为 ， 如 今 对 数据 科学 最 合理 的 定义 ， 就 是 Drew Conway 于 
2010 年 9 月 在 自己 的 博客 上 首次 发 表 的 数据 科学 维 恩 图 (如 图 0-1 所 示 )。 






































图 0-1， Drew Conway 的 数据 科学 维 恩 图 





虽然 图 中 交错 的 标签 看 着 跟 开玩笑 似 的 ， 但 我 还 是 认为 这 幅 图 道 出 了 “数据 科学 ”的 真 


XV 

















详 : 它 是 一 个 跨 学 科 的 课题 。 数 据 科 学 综合 了 三 个 领域 的 能 力 : 统计 学 家 的 能 能 够 
建立 模型 和 聚合 (数据 量 正 在 不 断 增 大 的 ) 数据 ， 计 算 机 科学 家 的 能 能 够 设计 并 使 
用 算法 对 数据 进行 高 效 存储 、 分 析 和 可 视 化 ， 领 域 专 家 的 能 在 细 分 领域 中 经 过 专业 











训练 ， 既 可 以 提出 正确 的 问题 ， 又 可 以 作出 专业 的 解答 。 


我 希望 你 不 要 把 数据 科学 看 作 一 个 新 的 知识 领域 ， 而 要 把 它 看 成 可 以 在 自己 熟悉 的 领域 中 
运用 的 新 能 力 。 无 论 你 是 汇报 竞选 结果 、 预 测 股 票 收益 、 优 化 网 络 广 告 点 击 率 、 在 显微镜 
下 识别 微生物 、 在 太空 中 寻找 新 天 体 ， 还 是 在 其 他 与 数据 相关 的 领域 中 工作 ， 本 书 都 会 让 
你 具备 发 现 问题 、 解 决 问题 的 能 


目标 读者 


无 论 是 在 华盛顿 大 学 教书 时 ， 还 是 在 各 种 科技 会 议 上 演讲 时 ， 经 党 有 人 问 我 这 样 一 个 问 
题 :“ 我 应 该 怎样 学 习 Python 呢 ? ” 问 这 个 问题 的 都 是 有 技术 能 力 的 学 生 、 程 序 员 或 科研 
人 人员， 他们 通常 都 具备 很 强 的 编程 能 力 ， 善 于 使 用 计算 机 和 数学 工具 。 他 们 中 的 大 多 数 人 
其 实 并 不 想 学 习 Python 本 身 ， 而 是 想 把 它 作 为 数据 密集 型 任务 处 理 和 计算 机 科学 的 工具 来 
使 用 。 虽 然 网 上 已 经 有 很 多 教学 视频 、 博 客 和 教程 ， 但 是 我 一 直觉 得 这 个 问题 还 缺少 一 个 
令 我 满意 的 答案 一 一 这 就 是 创作 本 书 的 缘由 。 


这 并 不 是 一 本 介绍 Python 和 编程 基础 知识 的 书 。 它 假设 读者 已 经 熟悉 Python 的 基本 语 
法 ， 包 括 定 义 函 数 、 分 配 变 量 、 调 用 对 象 方法 、 实 现 程 序 控制 流 等 基本 能 力 。 这 本 书 将 
帮助 Python 用 户 学 习 如 何 通过 Python 的 数据 科学 栈 一 一 包括 IPython、NumPy、Pandas、 
Matplotlib、ScikitLearn， 以 及 其 他 相关 的 程序 库 高 效 地 存储 、 处 理 和 分 析 数 据 。 


为 什么 用 Python 


Python 作为 科学 计算 的 一 流 工具 已 经 有 几 十 年 的 历史 了 ， 它 还 被 应 用 于 大 型 数据 集 的 分 
析 和 可 视 化 。 这 可 能 会 让 Python 早期 的 创 导 者 感到 惊奇 ， 因 为 这 门 语言 一 开始 并 不 是 为 
数据 分 析 和 科学 计算 设计 的 。Python 之 所 以 能 在 数据 科学 领域 广泛 应 用 ， 主 要 是 因为 它 
的 第 三 方程 序 包 拥有 庞大 而 活跃 的 生态 系统 : NumPy 可 以 处 理 同类 型 (homogeneous) 
数组 型 数据 、Pandas 可 以 处 理 多 种 类 型 (heterogeneous) 带 标签 的 数据 、SciPy 可 以 解 
决 和 常见 的 科学 计算 问题 、Matplotlib 可 以 绘制 可 用 于 印刷 的 可 视 化 图 形 、IPython 可 以 实 
现 交互 式 编程 和 快速 分 享 代码 、Scikit-Learn 可 以 进行 机 器 学 习 ， 还 有 其 他 很 多 工具 将 在 
后 面 的 章节 中 介绍 。 

如 果 你 需要 一 个 Python 入 门 教 程 ， 那 么 我 推荐 你 阅读 本 书 的 姊妹 篇 4 Whirlwind Tour of the 
Python Laneuage。 这 个 简短 的 教程 介绍 了 Python 的 基本 特性 ， 目 的 是 让 熟悉 其 他 编程 语 
言 的 数据 科学 家 快速 学 习 Python。 





























































































































Python 2 与 Python 3 


本 书 使 用 Python 3 的 语法 ， 其 中 包括 了 Python 2x 版 本 不 兼容 的 语法 技巧 。 虽 然 Python 
3.0 在 2008 年 就 发 布 了 ， 但 并 没有 被 快速 采用 ， 尤 其 是 在 科学 和 Web 开发 领域 。 这 主要 是 
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因为 许多 第 三 方程 序 库 和 工具 包 需 要 时 间 来 兼容 Python 的 新 版 本 。 然 而 ， 从 2014 年 初 开 
台 ， 数 据 科学 领域 最 重要 的 工具 的 稳定 版 本 都 已 经 同时 兼容 Python 2 和 Python 3， 因 此 本 
书 将 使 用 新 版 本 的 Python 3 语法 ， 不 过 其 中 的 大 部 分 代码 示例 无 须 调 整 也 可 以 在 Python 2 
中 运行 。 如 果 遇 到 了 Python 2 不 兼容 的 地 方 ， 我 会 尽量 详细 说 明 。 


IPA [I 和 
内 容 概 览 
本 书 每 一 间 都 重点 介绍 一 到 两 个 程序 包 或 工具 ， 它 们 是 Python 数据 科学 的 基础 。 


IPython 和 Jupyter (第 1 章 ) 
这 两 个 程序 包 为 许多 使 用 Python 的 数据 科学 家 提供 了 计算 环境 。 


NumPy (第 2 章 ) 
这 个 程序 库 提供 了 ndarray 对 象 ， 可 以 用 Python 高 效 地 存储 和 操作 大 型 数组 。 


Pandas (第 3 章 ) 

这 个 程序 库 提 供 了 DataFrame 对 象 ， 可 以 用 Python 高 效 地 存储 和 操作 带 标 签 的 / 列 
Mtatplotlib (第 4 章 ) 

这 个 程序 库 为 Python 提供 了 许多 数据 可 视 化 功能 。 


Scikit-Learn (第 5 章 ) 
这 个 程序 库 为 最 重要 的 机 器 学 习 算 法 提供 了 高 效 整洁 的 Python 版 实现 。 


Python 数据 科学 (PyData) 世界 里 当然 不 只 有 这 五 个 程序 包 ， 相 反 ， 情 况 是 日 新 月 异 的 。 
因此 ， 我 在 每 章 结 尾 都 列举 了 用 Python 实现 的 其 他 有 趣 的 图 书 、 项 目 和 程序 包 的 参考 资 
料 。 不 过 这 五 个 程序 包 是 目前 在 Python 数据 科学 领域 中 完成 大 部 分 工作 的 基础 ， 即 使 生态 
系统 在 不 断 成 长 ， 我 仍然 觉得 它们 五 个 非常 重要 。 


使 用 代码 示例 


本 书 的 补充 材料 (代码 示例 、 图 像 等 ) 都 可 以 在 https://github.com/jakevdp/PythonData 
ScienceHandbook 下 载 。 本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 
你 可 以 把 它 用 在 你 的 程序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联 系 我 们 获 
得 许可 。 比 如 ， 用 本 书 的 几 个 代码 片段 写 一 个 程序 就 无 须 获得 许可 ， 销 售 或 分 发 O'Reilly 
图 书 的 示例 光盘 则 需要 获得 许可 ，3| 用 本 书 中 的 示例 代码 回答 问题 无 须 获 得 许可 ， 将 书 中 
大 量 的 代码 放 到 你 的 产品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN,， 比 如 “Python Data Science Handbook by Jake VanderPlas (O’Reilly). 
Copyright 2017 Jake VanderPlas, 978-1-491-91205-8”。 

如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 








































































































万 / 汪 中 :上 < 
软件 安装 注意 事项 
安装 Python 和 科学 计算 程序 库 的 方法 其 实 很 简单 ， 下 面 列举 一 些 在 安装 软件 时 的 注意 


事项 。 


虽然 安装 Python 的 方法 有 很 多 ， 但 是 在 数据 科学 方面 ， 我 推荐 使 用 Anaconda 发 行 版 ，， 

Windows、Linux 和 Mac OS X 操作 系统 的 安装 和 使 用 方式 类 似 。Anaconda 发 行 版 有 两 种 。 

。 Miniconda (http://conda.pydata.org/miniconda.html) 只 包含 Python 解释 器 和 一 个 名 为 
conda 的 命令 行 工 具 。 conda 是 一 个 跨 平台 的 程序 包 管理 器 ,可 以 管理 各 种 Python 程序 包 ， 
类 似 于 Linux 用 户 熟 悉 的 apt 和 yum 程序 包 管 理 器 。 

。 Anaconda (https://www.continuum.io/downloads) 除了 包含 Python 和 conda 之 外 ， 还 同 

时 绑 定 了 四 五 百 个 科学 计算 程序 包 。 由 于 预 安装 了 许多 包 ， 因 此 安装 它 需 要 占用 几 个 吉 

字 节 的 存储 空间 。 

如 果 安 装 了 Miniconda， 所 有 程序 包 (包括 Anaconda) 都 可 以 手动 安装 。 因 此 ， 我 推荐 先 

安装 Miniconda， 其 他 包 视 情况 安装 。 

首先 ， 下载 并 安装 Miniconda 程序 包 (确认 你 选择 的 是 适合 Python 3 的 版 本 ) ， 然 后 安装 

本 书 的 几 个 重要 程序 包 。 


[~]$ conda install numpy pandas scikit-learn matplotlib seaborn ipython-notebook 


本 书 还 会 使 用 其 他 更 专业 的 Python 科学 计算 工具 ， 安 装 方法 同样 很 简单 ， 就 是 conda 
install 程序 包 名 称 。 关 于 conda 的 更 多 信息 ， 包 括 conda 虚拟 环境 (强烈 推荐 ) 的 创建 和 
使 用 ， 请 参考 conda 在 线 文档 (http:Wconda.pydata.org/docs/) 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 
。 等 宽 字体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 
。 加 粗 等 宽 字 体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 
。 等 宽 斜 体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 








































































































注 1: 中 国 大 陆 用 户 请 使 用 清华 大 学 TUNA 镜像 (https://mirror.tuna.tsinghua.edu.cn/help/anaconda/)。 一 一 译 者 注 








O’Reilly Safari 


。” ”Safari (原来 叫 Safari Books Online) 是 面向 企业 、 政 府 、 教 育 从 
号 Safari 业者 和 个 人 的 会 员 制 培训 和 参考 咨询 平台 。 

我 们 向 会 员 开 放 成 千 上 万 本 图 书 以 及 培训 视频 、 学 习 路 线 、 交 互 式 教程 和 专业 视频 。 这 
些 资 源 来 自 250 多 家 出 版 机 构 ， 其 中 包括 O’Reilly Media、Harvard Business Review、 
Prentice Hall Professional、Addison-Wesley Professional、 Microsoft Press、Sams、Que、 
Peachpit Press、 Adobe、Focal Press、Cisco Press、John Wiley & Sons、 Syngress、 Morgan 
Kaufmann、IBM Redbooks、 Packt、 Adobe Press、 FT Press、 Apress、 Manning、New 
Riders、 McGraw-Hill、Jones & Bartlett 和 Course Technology。 


更 多 信息 ， 请 访问 http://oreilly.com/safari。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 表 、 示 
例 代码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://bit.ly/python-data-sci-handbook 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : bookquestions@oreilly.com 
要 了 解 更 多 O'Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 ; 
http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : 
http://facebook.com/oreilly 


请 关注 我 们 的 Twitter 动态 : 


http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : 
http://www.youtube.com/oreillymedia 
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第 1 章 


IPython， 超越 Python 





Python 有 很 多 开发 环境 可 供 选 择 ， 我 也 党 第 被 问 起 在 工作 中 使 用 哪 一 种 开发 环境 。 我 的 
答案 有 时 会 让 人 惊讶 : 我 偏爱 的 开发 环境 是 IPython (http://ipython.org/) 加 上 一 个 文本 编 
辑 器 (Emacs 或 Atom， 有 具体 视 心情 而 定 ) 。IPython (interactive Python 的 简称 ， 即 交互 式 
Python) 由 Fernando Perez 作为 一 个 增强 的 Python 解释 器 于 2001 年 启动 ， 并 由 此 发 展 为 
一 个 项 目 。 用 Perez 的 原 话 来 说 ， 该 项 目 致力 于 提供 “科学 计算 的 全 生命 周期 开发 工具 ”。 
如 果 将 Python 看 作 数据 科学 任务 的 引擎 ， 那 么 IPython 就 是 一 个 交互 式 控制 面板 。 


除了 作为 Python 的 一 个 交互 式 接 口 ，IPython 还 提供 了 一 些 有 用 的 Python 语法 附加 功能 ， 
本 书 就 将 介绍 其 中 最 有 用 的 一 些 。 另 外 ，IPython 被 紧密 地 连接 在 Jupyter 项 目 (http:// 
jupyter.org) 中 。 该 项 目 提供 一 个 基于 浏览 器 的 Notebook， 它 可 以 开发 、 协 作 、 分 享 其 
至 发 布 数据 科学 结果 。IPython Notebook 其 实 只 是 通用 Jupyter Notebook 结构 的 特例 ， 而 
Jupyter Notebook 不 仅 支 持 Python， 还 包括 用 于 Julia、R 和 其 他 编程 语言 的 Notebook。 
Jupyter Notebook 的 格式 与 你 此 刻 正在 阅读 的 页 面 看 起 来 其 实 没 什么 两 样 本 书 的 全 部 稿 
件 就 是 用 一 组 IPython Notebook 写成 的 。 

IPython 就 是 用 Python 进行 有 效 的 交互 式 科学 计算 和 数据 密集 型 计算 。 本 章 首先 介绍 
IPython 对 数据 科学 非常 有 用 的 功能 ， 尤 其 关注 它 在 语法 上 超越 了 Python 的 特性 。 接 下 来 
将 深入 介绍 一 些 更 有 用 的 “魔法 命令 ”， 这 些 命令 可 以 为 与 创建 和 使 用 数据 科学 代码 相关 
的 常规 任务 提高 速度 。 最 后 将 介绍 了 Python Notebook 的 一 些 特性 ， 这 些 特 性 对 于 理解 数据 
和 分 享 结果 非常 有 用 。 


1.1 shell 还 是 Notebook 


本 章 将 介绍 两 种 使 用 IPython 的 方式 : IPython shell 和 IPython Notebook。 本 章 大 部 分 内 



































容 与 两 种 方式 都 有 关 ， 并 且 示 例会 根据 方便 程度 在 两 者 中 切换 。 在 少数 情况 下 仅 会 介绍 
一 种 工具 ， 届 时 我 会 清楚 地 说 明 。 在 开始 之 前 ， 先 简单 介绍 一 下 如 何 启动 Python shell 和 
IPython Notebook。 





1.1.1 启动 IPython shell 


这 一 草 和 本 书 大 部 分 内 容 一 样 ， 光 靠 眼睛 看 是 学 不 会 的 。 建 议 你 通读 一 壳 ， 并 且 用 我 们 介 
绍 的 工具 和 语法 动手 实践 一 遍 ， 毕 况 通 过 实践 形成 的 肌肉 记忆 远 比 简单 阅读 一 遍 持 久 得 
多 。 你 可 以 在 命令 行 中 输入 ipython 启动 IPython 解释 器 。 a ;安装 了 Anaconda 或 EPD 
的 Python 发 行 版 ， 系 统 中 将 会 有 一 个 特别 的 启动 器 (详情 请 参见 1.2 节 )。 


当 你 完成 以 上 步骤 后 ， 将 看 到 如 下 的 提示 : 


Sythen 4.0.1 -- An enhanced Interactive Python. 
? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 





help -> Python's own help systenm. 
object? -> Details about 'object', use 'object??' for extra details. 
In [1]: 


这 时 就 可 以 进行 接 下 来 的 步骤 了 。 


1.1.2 ”启动 Jupyter Notebook 


Jupyter Notebook 是 IPython shell 基于 浏览 器 的 图 形 界面 ， 提 供 了 一 系列 丰富 的 动态 展示 功 
能 。Jupyter Notebook 不 仅 可 以 执行 Python/IPython 语句 ， 还 允许 用 户 添加 格式 化 文本 、 静 
态 和 动态 的 可 视 化 图 像 、 数 学 公式 、JavaScript 插件 ， 等 等 。 不 仅 如 此 ， 这 些 Notebook 文 
档 还 能 以 共享 方式 存储 ， 以 便 其 他 人 可 以 打开 这 些 Notebook， 并 且 在 他 们 自己 的 系统 中 执 
行 这 些 Notebook 代码 。 


尽管 IPython Notebook 是 通过 你 的 Web 浏览 器 窗口 进行 查看 和 编辑 的 ， 但 是 它 必 须 与 一 个 
正在 运行 的 Python 进程 连接 才能 执行 代码 。 想 要 启动 这 个 进程 (也 被 称 作 “ 核 "，kernel)， 
需要 在 你 系统 的 命令 行 中 输入 以 下 命令 : 


$ jupyter notebook 


令 会 启动 一 个 本 地 的 Web 服务 器 ， 可 以 在 你 的 浏览 器 中 看 到 页 面 内 容 。 同 时 ， 它 会 
显示 它 正 在 做 什么 。 这 个 日 志 大 概 如 下 所 示 : 
$ jupyter notebook 
[NotebookApp] Serving notebooks from local directory: /Users/jakevdp/... 
[NotebookApp] 0 active kernels 


[NotebookApp] The IPython Notebook is running at: http://LocaLhost:8888/ 
[NotebookApp] Use Control-C to stop this server and shut down all kernels... 


一 旦 以 上 命令 执行 ， 你 的 默认 浏览 器 将 会 自动 打开 ， 并 且 自 动 导航 到 localhost 网 址 (实际 
地 址 会 依据 你 的 系统 而 定 )。 如 果 浏 览 器 没有 自动 打开 ， 你 可 以 自己 打开 一 个 窗口 ， 并 且 
手动 打开 这 个 网 址 (在 这 个 示例 中 是 http://localhost:8888)。 













































































1.2 1IPython 的 帮助 和 文档 


如 果 你 没有 阅读 本 章 的 其 他 节 ， 那 么 请 一 定 阅 读本 节 。 我 觉得 本 节 中 讨论 的 工具 对 我 的 日 
常 工作 流程 的 贡献 是 最 大 的 。 


当 一 个 技术 型 思维 的 人 要 帮助 他 的 朋友 、 家 人 或 同事 解决 计算 机 方面 的 问题 时 ， 大 多 数 时 
候 ， 重 要 的 不 是 知道 答案 ， 而 是 知道 如 何 快速 找到 答案 。 在 数据 科学 领域 也 一 样 ， 通 过 搜 
索 在 线 文 档 、 邮 件 列表 、Stack Overflow 等 网 络 资源 都 可 以 获得 丰富 的 信息 ， 即 使 (尤其 
是 ) 你 曾经 搜索 过 这 个 主题 。 要 想 成 为 一 名 高 效 的 数据 科学 实践 者 ， 重 要 的 不 是 记 住 针 对 
每 个 场景 应 该 使 用 的 工具 或 命令 ， 而 是 学 习 如 何 有 效 地 找到 未 知 信息 ， 无 论 是 通过 搜索 引 
擎 还 是 其 他 方式 。 

IPython 和 Jupyter 最 大 的 用 处 之 一 就 是 能 缩短 用 户 与 帮助 文档 和 搜索 间 的 距离 ， 帮 助 用 户 
高 效 完成 工作 。 虽 然 网 络 搜索 在 解答 复杂 问题 时 非常 有 用 ， 但 是 仅仅 使 用 IPython 就 能 找 
到 大 量 的 信息 了 。 以 下 是 仅 通过 几 次 按键 ，IPython 就 可 以 帮 你 解答 的 一 些 问题 。 


。 我 如 何 调用 这 个 函数 ?这 个 函数 有 哪些 参数 和 选项 ? 
。 这 个 Python 对 象 的 源 代码 是 怎样 的 ? 
。 我 导入 的 包 中 有 什么 ?这 个 对 象 有 哪些 属性 和 方法 ? 


接 下 来 将 介绍 如 何 通过 IPython 工具 来 快速 获取 这 些 信息 。 符 号 ? 用 于 浏览 文档 ， 符 号 ?? 
用 于 浏览 源 代码 ， 而 Tab 键 可 以 用 于 自动 补 全 。 


1.2.1 用 符号 ?获取 文档 

Python 语言 和 其 数据 科学 生态 系统 是 应 用 户 需 求 而 创建 的 ， 而 用 户 的 很 大 一 部 分 需求 就 是 
获取 文档 。 每 一 个 Python 对 象 都 有 一 个 字符 串 的 引用 ， 该 字符 串 即 docstring。 大 多 数 情 
况 下 ， 该 字符 串 包含 对 象 的 简要 介绍 和 使 用 方法 。Python 内 置 的 help() 函数 可 以 获取 这 
些 信息 ， 并 且 能 打印 输出 结果 。 例 如 ， 如 果 要 查看 内 置 的 Len 函数 的 文档 ， 可 以 按照 以 下 
步骤 操作 


In [1]: heLp(Len) 
Help on built-in function len in module builtins: 










































































len(...) 
Len(object) -> integer 


Return the number of items of a sequence or mapping. 
根据 不 同 的 解释 器 ， 这 条 信息 可 能 会 展示 为 内 髓 文本 ,或 者 出 现在 单独 的 弹出 窗口 中 。 
获取 关于 一 个 对 象 的 帮助 非常 常见 ， 也 非常 有 用 ， 所 以 IPython 引入 了 ? 符号 作为 获取 这 
个 文档 和 其 他 相关 信息 的 缩写 ; 
In [2]: Len? 
Type : builtin_function_or_method 
String form: <built-in function len> 


Namespace: Python builtin 
Docstring: 
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Len(object) -> integer 
Return the number of items of a sequence or mapping. 


这 种 表示 方式 几乎 适用 于 一 切 ， 包 括 对 象 方法 : 


In [3]: L = [1, 2, 3] 
In [4]: L.insert? 





Type: builtin_function_or_method 

String form: <built-in method insert of list object at 0x1024b8ea8> 

Docstring: L.insert(index, object) -- insert object before index 
甚至 对 于 对 象 本 身 以 及 相关 类 型 的 文档 也 适用 : 

In [5]: L? 

Type : list 

String form: [1, 2, 3] 

Length: 3 

Docstring: 


list() -> new empty list 
list(iterable) -> new list initialized from iterable's items 


重要 的 是 ， 这 种 方法 也 适用 于 你 自己 创建 的 函数 或 者 其 他 对 人 象 ! 下 
docstring 的 小 函数 : 
In [6]: def square(a): 


Si """Return the square of a. 
和 return a ** 2 








面 定义 一 个 带 有 

















请 注意 ， 为 了 给 函数 创建 一 个 docstring， 仅 仅 在 第 一 行 放 置 了 一 个 字符 串 字 面 量 。 由 于 
docstring 通常 是 多 行 的 ， 因 此 按照 惯例 ， 用 Python 的 三 个 引号 表示 多 行 字符 串 。 








接 下 来 用 ? 符号 来 找到 这 个 docstring: 


In [7]: square? 

Type: function 

String form: <function square at 0x103713cb0> 
Definition: square(a) 

Docstring: Return the square of a. 


你 应 该 养 成 在 你 写 的 代码 中 添加 这 样 的 内 艇 文档 的 习惯 ， 这 样 就 可 以 通过 





取 文 档 。 


1.2.2 ”通过 符号 ?? 获 取 源 代码 





由 于 Python 非常 易 读 ， 所 以 你 可 以 通过 阅读 你 感 兴趣 的 对 象 的 源 代码 得 到 更 高 层次 的 理 





解 。IPython 提供 了 获取 源 代码 的 快捷 方式 (使 用 两 个 问号 ??) : 


In [8]: square?? 

Type: function 

String form: <function square at 0x103713cb0> 
Definition: square(a) 

Source: 











docstring 快速 获 




















IT 





def square(a): 
"Return the square of a" 
return a ** 2 


对 于 这 样 的 简单 函数 ， 两 个 问号 就 可 以 帮助 你 深入 理解 隐 含 在 表面 之 下 的 实现 细节 。 

如 果 你 经 常 使 用 ?? 后 级 ， 就 会 发 现 它 有 时 不 能 显示 源 代 码 。 这 是 因为 你 查询 的 对 象 并 不 
是 用 Python 实现 的 ， 而 是 用 C 语言 或 其 他 编译 扩展 语言 实现 的 。 在 这 种 情况 下 ，?? 后 绥 
将 等 同 于 ? 后 级 。 你 将 会 在 很 多 Python 内 置 对 象 和 类 型 中 发 现 这 样 的 情况 ， 例 如 上 面 示例 
中 提 到 的 Len 函数 : 


In [9]: len?? 


























Type: builtin_function_or_method 
String form: <built-in function len> 
Namespace: Python builtin 

Docstring: 


len(object) -> integer 
Return the number of items of a sequence or mapping. 


? 和 ?? 提供 了 一 个 强大 又 快速 的 接口 ， 可 以 查找 任何 Python 函数 或 模块 的 用 途 信息 。 


1.2.3 ”用 Tab 补 全 的 方式 探索 模块 


IPython 另 一 个 有 用 的 接口 是 用 Tab 键 自动 补 全 和 探索 对 象 、 模 块 及 命名 空间 的 内 容 。 在 
接 下 来 的 示例 中 ， 我 们 将 用 <TAB> 来 表示 Tab 键 。 


1. 对 象 内 容 的 Tab 自 动 补 全 
每 一 个 Python 对 象 都 包含 各 种 属性 和 方法 。 和 此 前 讨论 的 help 函数 类 似 ，Python 有 一 个 
内 置 的 dir 函数 ， 可 以 返回 一 个 属性 和 方法 的 列表 。 但 是 Tab 自动 补 全 接口 在 实际 的 应 用 
过 程 中 更 简便 。 要 想 看 到 对 象 所 有 可 用 属性 的 列表 ， 可 以 输入 这 个 对 象 的 名 称 ， 再 加 上 一 
个 句点 (.) 和 Tab 键 : 

In [10]: L.<TAB> 


L.append L.copy L.extend L.insert L.remove L.sort 
L.clear L.count  L.index L.pop L.reverse 


为 了 进一步 缩小 整个 列表 ， 可 以 输入 属性 或 方法 名 称 的 第 一 个 或 前 几 个 字符 ， 然 后 Tab 键 
将 会 查找 匹配 的 属性 或 方法 : 


In [10]: L.c<TAB> 
L.clear L.copy L.count 


















































In [10]: L.co<TAB> 
L.copy L.count 


如 果 只 有 一 个 选项 ， 按 下 Tab 键 将 会 把 名 称 自动 补 全 。 例 如 ， 下 面 示 例 中 的 内 容 将 会 马上 
被 L.count 替换 : 


In [10]: L.cou<TAB> 


尽管 Python 没有 严格 区 分 公共 /外 部 属性 和 私有 /内 部 属性 ， 但 是 按照 惯例 ， 前 面 带 有 下 
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划 线 表示 私有 属性 或 方法 。 为 了 清楚 起 见 ， 这 个 列表 中 默认 省 略 了 这 些 私 有 方法 和 特殊 方 
法 。 不 过 ， 你 可 以 通过 明确 地 输入 一 条 下 划 线 来 把 这 些 私 有 的 属性 或 方法 列 出 来 : 
In [10]: L._<TAB> 


L. add __ [gt ， L.__reduce _ 
L.__class_ _ L._hash __ L.__reduce ex_ _ 


为 了 简洁 起 见 ， 这 里 只 展示 了 输出 的 前 两 行 ， 大 部 分 是 Python 特殊 的 双 下 划 线 方法 (昵称 
叫 作 “dunder 方法 ”)。 
2. 导入 时 的 Tab 自 动 补 全 
Tab 自动 补 全 在 从 包 中 导入 对 象 时 也 非常 有 用 。 下 面 用 这 种 方法 来 查找 itertools 包 中 以 
co 开头 的 所 有 可 导入 的 对 象 : 

In [10]: from itertooLs import co<TAB> 


combinations compress 
combinations_ with_replacement count 


同样 ， 你 也 可 以 用 Tab 自动 补 全 来 查看 你 系统 中 所 有 可 导入 的 包 (这 将 因 你 的 Python 会 话 
中 有 哪些 第 三 方 脚本 和 模块 可 见 而 不 同 ) : 


In [10]: import <TAB> 
Display all 399 possibilities? (y or n) 


























Crypto dis py_compile 
Cython distutils pycLbr 
diffLib pwd zmq 

In [10]: import h<TAB> 

hashlib hmac http 

heapq html husl 


(为 了 简洁 起 见 ， 并 没有 打印 我 的 系统 中 所 有 可 导入 的 399 个 包 和 模块 。) 

3. 超越 Tab 自 动 补 全 : 通配符 匹配 

当 你 知道 所 寻找 的 对 象 或 属性 的 第 一 个 或 者 前 几 个 字符 时 ，Tab 自动 补 全 将 非常 有 用 。 但 
是 当 你 想 匹 配 中 间或 者 末尾 的 几 个 字符 时 ， 它 就 束手无策 了 。 对 于 这 样 的 场景 ，IPython 
提供 了 用 * 符号 来 实现 的 通配符 匹配 方法 。 

例如 ， 可 以 用 它 列举 出 命名 空间 中 以 warning 结尾 的 所 有 对 象 ; 


In [10]: *Warning? 














BytesWarning RuntimeWarning 
DeprecationWarning SyntaxWarning 
FutureWarning UnicodeWarning 
ImportWarning UserWarning 
PendingDeprecationWarning Warning 
ResourceWarning 





请 注意 ， 这 里 的 * 符 号 匹配 任意 字符 串 ， 包 括 空 字符 串 。 
同 理 ， 假 设 我 们 在 寻找 一 个 字符 串 方法 ， 它 的 名 称 中 包含 find， 则 可 以 这 样 做 : 











In [10]: str.*find*? 
str.find 
str.rfind 


在 实际 应 用 过 程 中 ， 我 发 现 ， 当 我 接触 一 个 新 的 包 或 者 是 重新 认识 一 个 已 经 熟悉 的 包 时 ， 
这 种 灵活 的 通配符 查找 方法 对 于 找到 其 中 一 个 特定 的 命令 非常 有 用 。 


1.3 1IPython shell 中 的 快捷 键 


如 果 你 常用 计算 机 ， 你 可 能 在 工作 流程 中 使 用 过 快捷 键 。 最 熟悉 的 可 能 是 Cmd + C 和 Cmd 
+ V (或 者 是 Ctrl + C 和 Ctrl + V)， 它 们 在 很 多 程序 和 系统 中 用 于 复制 和 粘贴 。 高 级 用 户 
会 将 快捷 键 用 得 更 加 深入 和 广泛 ， 流 行 的 文本 编辑 器 〈 如 Emacs、Vim 等 ) 通过 复杂 的 按 
键 组 合 为 用 户 提供 了 很 多 快捷 操作 。 

IPython 并 没有 上 述 编辑 器 那么 强大 ， 但 是 它 也 提供 了 一 些 快捷 方式 ， 能 帮 你 在 录入 命令 的 
时 候 快速 导航 。 但 事实 上 ， 这 些 快 捷 方 式 并 不 是 IPython 本 身 提 供 的 ， 而 是 通过 IPython 对 
GNU Readline 库 的 依赖 关系 实现 的 。 因 此 ， 接 下 来 介绍 的 一 些 快捷 方式 可 能 会 因 你 系统 配 
置 的 不 同 而 不 同 。 此 外 ， 一些 快 捷 方式 也 可 以 在 基于 浏览 器 的 Notebook 中 起 作用 ,但 是 
本 节 将 主要 讨论 IPython shell 中 的 快捷 方式 。 

一 旦 你 用 惯 了 这 些 快捷 方式 ， 就 能 快速 执行 一 些 命令 ， 而 不 用 将 手 从 “home” 键 上 移 开 。 
如 果 你 是 一 名 Emacs 用 户 ,或 者 有 Linux shell 的 使 用 经 验 ， 你 会 对 接 下 来 的 内 容 非 常熟 
悉 。 我 们 会 将 这 些 快捷 键 分 为 儿 类 : 导航 快捷 键 、 文 本 输入 快捷 键 、 命 令 历史 快捷 键 和 其 
他 快捷 键 。 


1.3.1 导航 快捷 键 

















































































































利用 左 稍 头 和 右 箭头 在 一 行 中 向 前 或 向 后 移动 是 非常 常见 的 ， 不 过 还 有 其 他 一 些 选 项 也 可 
以 让 你 不 用 把 手 从 “home” 键 上 挪 开 。 

快捷 键 动作 

Ctrl+a 将 光标 移 到 本 行 的 开始 处 

Ctrl+e 将 光标 移 到 本 行 的 结尾 处 





Ctrl+b (或 左 箭头 键 ) ”将 光标 回 退 一 个 字符 
Ctrl +f (或 右 箭 头 键 ) ”将 光标 前 进 一 个 字符 


1.3.2 文本 输入 快捷 键 


每 个 人 都 知道 用 Backspace 键 可 以 删除 前 一 个 字符 ， 但 手指 要 移动 一 定 的 距离 才能 够 到 这 个 
按键 ， 并 且 它 一 次 只 能 删除 一 个 字符 。IPython 中 有 一 些 可 以 删除 你 输入 的 部 分 文本 的 快捷 
键 ， 甚 中 立马 能 派 上 用 场 的 就 是 删除 整 行文 本 的 快捷 键 。 一 旦 你 开始 用 Cul + bp 和 Cal + d 组 
合 ， 而 不 是 用 Backspace 按键 删除 前 一 个 字符 ， 就 再 也 离 不 开 这 些 快 捷 键 了 。 
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快捷 键 动作 























Backspace 键 I 除 前 一 个 字符 

Ctrl+d I 除 后 一 个 字符 

Ctrl+k 从 光标 开始 剪 切 至 行 的 末尾 

Ctrl +u 从 行 的 开头 剪 切 至 光标 

Ctrl +y yank 〈 即 粘贴 ) 之 前 剪 切 的 文本 
Ctrl +t transpose ( 即 交 换 ) 前 两 个 字符 


1.3.3 ”命令 历史 快捷 键 


可 能 本 书 讨论 的 最 有 效 的 快捷 方式 是 IPython 提供 的 导航 命令 历史 的 快捷 方式 。 这 个 命令 
历史 超越 了 你 当前 的 Python 会 i 尔 所 有 的 命令 历史 都 会 存储 在 一 个 IPython 配置 文件 
路 径 下 的 SQLite 数据 库 中 。 获 取 这 些 命令 最 直接 的 方式 就 是 用 上 下 箭头 遍历 历史 ,但 是 仍 
































然 还 有 些 别 的 选项 

快捷 键 动作 

Ctrl+p (或 向 上 箭头 ) 获取 前 一 个 历史 命令 
Cul+n (或 向 下 箭头 ) 获取 后 一 个 历史 命令 
Ctrl +T 对 历史 命令 的 反 向 搜索 





反 疝 搜索 特别 有 用 。 在 前 一 节 中 ， 我 们 定义 了 一 个 叫 作 square 的 国 数 。 让 我 们 从 一 个 新 的 
IPython shell 中 反 向 搜索 Python 历史 ， 重 新 找到 这 个 函数 的 定义 。 当 你 在 IPython 终端 按 
下 Ctrl+r 键 时 ， 将 看 到 如 下 提示 : 

In [1]: 

(reverse-i-search).': 
如 果 你 在 该 提示 后 开始 输入 字符 ，IPython 将 自动 填充 时 间 最 近 的 命令 。 如 果 有 的 话 ， 将 
会 匹配 到 如 下 字符 : 

In [1]: 

(reverse-i-search)'sqa': square?? 
你 可 以 随时 添加 更 多 的 字符 来 重新 定义 搜索 ， 或 者 再 一 次 按 下 Ctrl + r 键 来 寻找 男 外 一 个 
匹配 该 查询 的 命令 。 如 果 你 在 前 一 市 中 照 做 了 的 话 ， 按 下 Ctrl +r 键 两 次 将 可 以 看 到 : 

In [1]: 

(reverse-iL-search) sqa': def square(a): 


""Return the square of a""" 
return a ** 2 


找到 你 在 寻找 的 命令 后 ， 按 下 Return 键 将 会 终止 查找 。 然 后 就 可 以 利用 查找 到 的 命令 ， 继 
续 我 们 的 会 话 : 
In [1]: def square(a): 


""Return the square of a""" 
return a ** 2 


















































In [2]: square(2) 
Out[2]: 4 
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请 注意 ， 你 也 可 以 用 Ctrl + p / Ctrl + n 或 者 上 下 方向 键 查找 历史 ， 但 是 仅仅 是 匹配 每 行 的 
前 几 个 字符 。 也 就 是 说 ， 如 果 你 输入 def 然后 按 下 Ctrl + p， 则 会 在 你 的 命令 历史 中 找到 以 
def 开头 的 最 近 的 命令 (如 果 有 的 话 )。 


1.3.4 其 他 快捷 键 
还 有 一 些 不 能 归纳 在 之 前 儿 个 类 别 中 的 快捷 键 ， 但 是 它们 也 非常 有 用 。 
快捷 键 动作 








Ctrl+1 清除 终端 屏幕 的 内 容 
Ctrl + c 中 断 当 前 的 Python 命令 
Ctrl+d 退出 IPython 会 话 











如 果 你 无 意 间 开启 了 一 个 运行 时 间 非 常 长 的 程序 ，Ctrl + c 快捷 键 就 能 派 上 大 用 场 。 
这 里 讨论 的 一 些 快 捷 键 可 能 乍 看 上 去 有 些 麻 烦 ， 但 是 经 过 实践 你 很 快 就 会 习惯 它们 。 一 旦 
你 形成 了 这 种 肌肉 记忆 ， 其 至 会 希望 将 这 些 快捷 方式 应 用 到 其 他 场景 中 。 


1.4 ”IPython 魔 法 命令 


前 两 节 介 绍 了 IPython 如 何 让 你 以 更 有 效 且 可 交互 的 方式 使 用 和 探索 Python。 本 节 将 介绍 
一 些 IPython 在 普通 Python 语法 基础 之 上 的 增强 功能 。 这 些 功能 被 称 作 IPython 魔法 命令 ， 
并 且 都 以 % 符 号 作为 前 级。 这 些 魔法 命令 设计 用 于 简洁 地 解决 标准 数据 分 析 中 的 各 种 常 
见 问题 。 魔 法 命令 有 两 种 形式 : 行 魔法 (line magic) 和 单元 魔法 (cell magic) 。 行 魔法 以 
单个 % 字 符 作为 前 级 ， 作 用 于 单行 输入 ;单元 魔法 以 两 个 % 作 为 前 经， 作用 于 多 行 输入 。 
下 面 将 展示 和 讨论 一 些 简单 的 例子 ， 本 章 后 面 会 更 详细 地 讨论 一 些 有 用 的 魔法 命令 。 


1.4.1 粘贴 代码 块 : %paste 和 %cpaste 

当 你 使 用 IPython 解释 器 时 ， 有 件 事 经 常 让 你 头疼 ， 那 就 是 粘贴 多 行 代码 块 可 能 会 导致 不 
可 预料 的 错误 ， 尤 其 是 其 中 包含 缩 进 和 解释 符号 时 。 一 个 常见 的 情况 是 ， 你 在 一 个 网 站 中 
找到 了 一 些 示例 代码 ， 并 想 将 它们 粘贴 到 你 的 解释 器 中 ， 例 如 下 面 这 个 简单 函数 : 


>>> def donothing(x): 
return x 


虽然 这 些 代码 和 Python 解释 器 中 的 显示 是 一 样 的 ， 但 是 如 果 你 将 它 直 接 复制 并 粘贴 到 
IPython 中 ， 就 会 出 现 错误 : 


In [2]: >>> def donothing(x): 
ol es return x 



















































































File "<ipython-input-20-5a66c8964687>", line 2 
return x 
八 


SyntaxError: invalid syntax 
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在 直接 粘贴 的 过 程 中 ， 解 释 器 被 额外 的 提示 符号 搞 量 了 。 但 是 不 要 害怕 ，IPython 的 
%paste 魔法 函数 可 以 解决 这 个 包含 符号 的 多 行 输入 问题 : 
In [3]: %paste 


>>> def donothing(x): 
return x 


## -- End pasted text -- 


%paste 命令 同时 输入 并 执行 该 代码 ， 所 以 你 可 以 看 到 这 个 函数 现在 被 应 用 了 : 


In [4]: donothing(10) 
Out[4]: 10 


另外 一 个 作用 类 似 的 命令 是 %cpaste。 该 命令 打开 一 个 交互 式 多 行 输入 提示 ， 你 可 以 在 这 
个 提示 下 粘贴 并 执行 一 个 或 多 个 代码 块 : 

In [5]: %cpaste 

Pasting code; enter '--' alone on the line to stop or Use Ctrl-D. 


:>>> def donothing(x): 
return x 

















这 些 命令 和 我 们 将 会 看 到 的 其 他 法 命令 一 梯 ， 实现 了 在 标准 的 Python 解释 器 中 很 难 或 是 
不 可 能 实现 的 功能 。 
1.4.2 ”执行 外 部 代码 : %run 


当 你 开发 更 复杂 的 代码 时 ， 会 发 现 自己 在 使 用 IPython 进行 交互 式 探索 的 同时 ， 还 需 
要 使 用 文本 编辑 器 存储 你 希望 重用 的 代码 。 在 IPython 会 话 中 运行 之 前 的 代码 非常 方便 ， 
不 用 在 另 一 个 新 窗口 中 运行 这 些 程序 代码 。 这 个 功能 可 以 通过 %run 魔法 命令 来 实现 。 


假设 你 创建 了 一 个 myscript.py 文件 ， 该 文件 包含 以 下 内 容 : 








# file: myscript.py 


def Square(X) : 
" 求 平方 ' Ln 


return x ** 2 





for N in range(1, 4): 
print(N, "squared is", square(N)) 


你 可 以 在 像 下 面 这 样 在 IPython 会 话 中 运行 该 程序 : 


In [6]: %run myscript.py 
1 squared is 1 
2 squared is 4 
3 squared is 9 


请 注意 ， 当 你 运行 了 这 段 代码 之 后 ， 该 代码 中 包含 的 所 有 函数 都 可 以 在 IPython 会 话 中 
使 用 : 














In [7]: square(5) 
Out[7]: 25 


IPython 提供 了 几 种 方式 来 调整 代码 如 何 执行 。 你 可 以 在 了 Python 解释 器 中 输入 %run? 查看 
帮助 文档 。 


1.4.3 ”计算 代码 运行 时 间 : %timeit 
另 一 个 非常 有 用 的 魔法 函数 是 %timeit， 它 会 自动 计算 接 下 来 一 行 的 Python 语句 的 执行 时 
间 。 例 如 ， 我 们 可 能 想 了 解 列 表 综 合 的 性 能 : 


In [8]: %timeit L = [n ** 2 for n in range(1000)] 
1000 loops, best of 3: 325 hs per Loop 


%timett 的 好 处 是 ， 它 会 自动 多 次 执行 简短 的 命令 ， 以 获得 更 稳定 的 结果 。 对 于 多 行 语句， 
可 以 加 入 第 二 个 % 符 号 将 其 转变 成 单元 魔法 ， 以 处 理 多 行 输入 。 例 如 ， 下 面 是 for 循环 的 
同等 结构 ; 
In [9]: %%timeit 
:L=[] 
: for n in range(1000): 
L.append(n ** 2) 

















1000 loops, best of 3: 373 hs per Loop 


从 以 上 结果 可 以 立刻 看 出 ， 列 表 综合 比 同等 的 for 循环 结构 快 约 10%。 我 们 将 在 1.9 市 中 
进一步 探索 %timeit 和 其 他 对 代码 进行 计时 和 分 析 的 方法 。 


1.4.4 魔法 函数 的 帮助 : ?、%magic 和 和 %lsmagic 
和 普通 的 Python 函数 一 样 ，IPython 魔法 函数 也 有 文档 字符 串 ， 并 且 可 以 通过 标准 的 方式 
获取 这 些 有 用 的 文档 注释 。 例 如 ， 为 了 读 到 %timeit 魔法 函数 的 文档 注释 ， 可 以 简单 地 输 
入 以 下 命令 

In [10]: %timeit? 
其 他 函数 的 文档 注释 也 可 以 通过 类 似 方 法 获得 。 为 了 获得 可 用 魔法 函数 的 通用 描述 以 及 一 
些 示例 ， 可 以 输入 以 下 命令 : 

In [11]: %magic 
为 了 快速 而 简单 地 获得 所 有 可 用 魔法 函数 的 列表 ， 可 以 输入 以 下 命令 : 

In [12]: %lsmagic 
最 后 我 还 想 提醒 你 ， 更 直接 的 方式 是 按照 你 的 意愿 定义 你 自己 的 魔法 国 数 。 这 里 不 会 具体 
介绍 ， 但 是 如 果 你 感 兴趣 ， 可 以 参考 1.10 节 列 出 的 参考 资料 。 
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1.5 输入 和 输出 历史 


我 们 在 前 面 看 到 ，IPython shell 允许 用 上 下 方向 键 或 Ctrl + p / Ctrl +n 快捷 键 获 取 历 史 命 
令 。 另 外 ， 了 Python 在 shell 和 Notebook 中 都 提供 了 几 种 获取 历史 命令 的 输出 方式 ， 以 及 这 
些 命令 本 身 的 字符 串 形式 。 本 节 将 会 具体 介绍 。 


1.5.1 IPython 的 输入 和 输出 对 和 象 

到 目前 为 止 ， 我 想 你 应 该 特别 熟悉 IPython 用 到 的 In[1]:/0ut[1]: 形式 的 提示 了 。 但 实际 
上 上， 它们 并 不 仅仅 是 好 看 的 装饰 形式 ， 还 给 出 了 在 当前 会 话 中 如 何 获 取 输 入 和 输出 历史 的 
线索 。 假 设 你 用 以 下 形式 启动 了 一 个 会 话 : 


In [1]: import math 














In [2]: math.sin(2) 
Out[2]: 0.9092974268256817 


In [3]: math.cos(2) 

Out[3]: -0.4161468365471424 
我 们 导入 了 一 个 内 置 的 math 程序 包 ， 然 后 计算 2 的 正弦 函数 值 和 余弦 函数 值 。 这 些 输入 
和 输出 在 shell 中 带 有 In/0ut 标签 ， 但 是 不 仅 如 此 一 一 也 Python 实际 上 创建 了 叫 作 In 和 out 
的 Python 变量 ， 这 些 变量 自动 更 新 以 反映 命令 历史 : 


In [4]: print(In) 
['', 'import math', 'math.sin(2)', 'math.cos(2)', 'print(In)'] 














In [5]: Out 

Out[5]: {2: 0.9092974268256817, 3: -0.4161468365471424} 
In 对 象 是 一 个 列表 ， 按 照 顺序 记录 所 有 的 命令 (列表 中 的 第 一 项 是 一 个 占 位 符 ， 以 便 
In[1] 可 以 表示 第 一 条 命令 ) : 

In [6]: print(In[1]) 

import math 
Out 对 象 不 是 一 个 列表 ， 而 是 一 个 字典 。 它 将 输入 数字 映射 到 相应 的 输出 〈 如 果 有 的 话 ) : 

In [7]: print(Out[2]) 

0.9092974268256817 
请 注意 ， 不 是 所 有 操作 都 有 输出 ， 例 如 import 语句 和 priint 语句 就 不 影响 输出 。 对 于 后 者 
你 可 能 会 感到 有 点 意外 ， 但 是 仔细 想 想 ，print 是 一 个 函数 ， 它 的 返回 值 是 None， 这 样 就 
能 说 通 了 。 总 的 来 说 ， 任 何 返 回 值 是 None 的 命令 都 不 会 加 到 out 变量 中 。 
如 果 想 利用 之 前 的 结果 ， 理 解 以 上 内 容 将 大 有 用 处 。 例 如 ， 利 用 之 前 的 计算 结果 检查 
sin(2) ** 2 和 cos(2) ** 2 的 和 ， 结 果 如 下 : 


In [8]: Out[2] ** 2 + Out[3] ** 2 
Out[8]: 1.0 
















































































输出 结果 是 1.0， 符 合 勾 股 定理 。 在 这 个 例子 中 ， 可 能 不 需要 利用 之 前 的 结果 ， 但 是 如 果 
你 执行 一 个 非常 复杂 的 计算 并 且 和 希望 重复 利用 运算 结果 ， 那 么 该 方法 就 会 非常 有 用 。 


1.5.2 下划线 快捷 键 和 以 前 的 输出 
标准 的 Python shell 仅仅 包括 一 个 用 于 获取 以 前 的 输出 的 简单 快捷 键 。 变 量 -〈 单 下 划 线 ) 
用 于 更 新 以 前 的 输出 ， 而 这 种 方式 在 IPython 中 也 适用 : 

In [9]: print(_) 

150 
但 是 IPython 更 进 了 一 步 一 一 你 可 以 用 两 条 下 划 线 获得 倒数 第 二 个 历史 输出 ， 用 三 条 下 划 
线 获得 倒数 第 三 个 历史 输出 〈 跳 过 任何 没有 输出 的 命令 ) : 


In [10]: print(_ ) 
-0.4161468365471424 














In [11]: print(_ _) 
0.9092974268256817 


IPython 的 这 一 功能 就 此 停止 : 超过 三 条 下 划 线 开始 变 得 比较 难 计数 ， 并 且 在 这 种 情况 下 
通过 行 号 来 指定 输出 更 方便 。 
这 里 还 要 提 到 另外 一 个 快捷 键 


In [12]: Out[2] 
Out[12]: 0.9092974268256817 

















0ut[X] 的 简写 形式 是 _X ( 即 一 条 下 划 线 加 行 号 ) : 


In [13]: _2 
Out[13]: 0.9092974268256817 


1.5.3 ”禁止 输出 

有 了 时 你 可 能 希望 禁止 一 条 语句 的 输出 (在 第 4 章 将 介绍 的 画图 命令 中 最 常见 )。 或 者 你 执 

行 的 命令 生成 了 一 个 你 并 不 希望 存储 到 输出 历史 中 的 结果 ， 这 样 当 其 他 引用 被 删除 时 ， 该 

空间 可 以 被 释放 。 要 禁止 一 个 命令 的 输出 ， 最 简单 的 方式 就 是 在 行 末 尾 处 添加 一 个 分 号 : 
In [14]: math.sin(2) + math.cos(2); 

请 注意 ， 这 个 结果 被 默默 地 计算 了 ， 并 且 输 出 结果 既 不 会 显示 在 屏幕 上 ， 也 不 会 存储 在 

0ut 路 径 下 : 


In [15]: 14 in Out 
Out[15]: False 


1.5.4 相关 的 魔法 命令 
如 果 想 一 次 性 获取 此 前 所 有 的 输入 历史 ，%history 魔法 命令 会 非常 有 用 。 在 下 面 的 示例 中 
可 以 看 到 如 何 打 印 前 4 条 输入 命令 : 
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In [16]: %history -n 1-4 
1: import math 
2: math.sin(2) 
3: math.cos(2) 
4: print(In) 


按照 惯例 ， 可 以 输入 %history? 来 查看 更 多 相关 信息 以 及 可 用 选项 的 详细 描述 。 其 他 类 似 
的 魔法 命令 还 有 %rerun (该 命令 将 重新 执行 部 分 历史 命令 ) 和 %save (该 命令 将 部 分 历史 
命令 保存 到 一 个 文件 中 )。 如 果 想 获取 更 多 相关 信息 ， 建 议 你 使 用 ? 帮助 功能 (详情 请 参 
见 1.2 节 )。 


1.6 1Python 和 shell 命 令 


当 与 标准 Python 解释 器 交互 时 ， 你 将 面临 一 个 令 人 诅 起 的 场景 你 需要 在 多 个 Python 
工具 和 系统 命令 行 工具 窗口 间 来 回 切换 。 而 IPython 可 以 跨越 这 个 酋 沟 ， 并 且 提 供 了 在 
IPython 终端 直接 执行 shell 命令 的 语法 。 这 一 神奇 的 功能 是 使 用 感叹 号 实现 的 : 一 行 中 任 
何在 ! 之 后 的 内 容 将 不 会 通过 Python 内 核 运行 ， 而 是 通过 系统 命令 行 运 行 。 

以 下 内 容 假定 你 在 用 一 个 类 Unix 系统 ， 如 Linux 或 者 Mac OS X。 下 文中 的 一 些 示 例如 果 
在 Windows 系统 中 运行 将 会 失败 ， 因 为 Windows 系统 默认 使 用 的 是 与 类 Unix 系统 不 同 的 
shell。 (微软 已 于 2016 年 宣布 在 Windows 系统 中 可 以 运行 原生 的 Bash shell， 所 以 在 不 入 
后 这 就 不 是 个 问题 了 ! ) 如 果 不 熟悉 shell 命令 ， 建 议 你 查看 Software Carpentry Foundation 
的 shell 教程 (http://swcarpentry.github.io/shell-novice/)。 


1.6.1 shell 快速 入 门 


关于 如 何 使 用 shell /终端 /命令 行 的 完整 介绍 不 在 本 章 的 讨论 范围 内 ， 但 是 我 们 为 没有 任 
何 相关 经 验 的 初学 者 提供 了 一 份 快速 入 门 指南 。shell 是 一 种 通过 文本 与 计算 机 交互 的 方 
式 。 自 20 世纪 80 年 代 中 期 ,微软 和 苹果 发 布 其 第 一 版 (现在 已 经 非常 普遍 ) 图 形 操作 系 
统 以 来 ， 大 多 数 计算 机 用 户 已 经 熟悉 了 通过 菜单 点 击 和 拖 搜 移动 等 方式 与 操作 系统 进行 交 
互 。 但 是 ， 操 作 系 统 早 在 这 些 图 形 用 户 界 面 出 现 之 前 就 存在 ， 并 且 早 期 主要 通过 输入 文本 
来 控制 : 用户 在 提示 符 后 输入 一 个 命令 ,计算 机 将 按照 命令 执行 任务 。 这 些 早 期 的 提示 系 
统 是 shell 和 终端 的 前 身 ， 并 且 大 多 数 活 跃 的 数据 科学 家 至 今 仍然 用 它们 与 计算 机 交互 。 


有 些 不 熟悉 shell 的 人 可 能 会 问 ， 明 明 通 过 简单 地 点 击 图 标 和 菜单 就 可 以 完成 很 多 任务 ， 为 
什么 要 把 它 复杂 化 ? shell 用 户 可 能 想 用 另 一 个 问题 来 回答 : 明明 在 命令 行 简单 地 输入 就 能 
完成 任务 ， 为 什么 还 要 点 击 图 标 和 菜单 ? 这 听 起 来 可 能 像 一 个 典型 的 技术 偏好 僵局 ， 但 显 
然 ，shell 对 于 高 级 任务 能 提供 更 多 的 控制 操作 。 但 是 ， 我 们 也 不 得 不 承认 shell 的 学 习 
线 会 使 很 多 普通 计算 机 用 户 望而却步 。 

例如 ， 以 下 是 一 个 用 户 在 Linux / OS X 系统 中 探索 、 创 建 和 修改 文件 和 路 径 的 shell 会 话 的 
示例 (osx: ~ $ 是 提示 符 , 在 $ 符号 后 的 所 有 内 容 是 输入 的 命令 ， 在 # 之 前 的 文本 是 一 个 
描述 ， 并 不 是 实际 输入 的 内 容 ) : 































































































osx:~ $ echo "hello world" # echo 类 似 于 Python 的 打印 国 数 
hello world 








osx:~ $ pwd # pwd= 打 印 工作 路 径 
/home/jake # 这 就 是 我 们 所 在 的 路 径 
osx:~ $ 1s # 1Ls= 列 出 当前 路 径 的 内 容 


notebooks projects 
osx:~ $ cd projects/ # cd= 改 变 路 径 


osx:projects $ pwd 
/home/jake/projects 


osx:projects $ ls 
datasci book mpld3 myproject.txt 


osx:projects $ mkdir myproject # mkdir= 创 建新 的 路 径 
osx:projects $ cd myproject/ 


osx:myproject $ mv ../myproject.txt ./ # mv= 移 动 文件 。 这 里 将 
# 文件 myproject.txt 从 上 一 级 
# 路 径 (../) 移 动 到 当前 路 径 (./) 
Osx:myproject $ ls 
myproject. txt 


请 注意 ， 以 上 示例 仅仅 是 通过 输入 命令 而 不 是 通过 点 击 图 标 和 菜单 来 执行 熟悉 操作 (对 路 
径 结构 的 导航 、 创 建 路 径 、 移 动 文件 等 ) 的 一 种 紧凑 方式 。 在 这 个 例子 中 ， 仅 仅 通 过 几 个 
简单 的 命令 (pwd、Ls、cd、mkdir 和 cp) 就 可 以 完成 大 多 数 常见 的 文件 操作 。 当 你 执行 一 
些 高 级 任务 时 ，shell 方法 将 变 得 非常 有 用 。 











1.6.2 1IPython 中 的 shell 命 令 


你 可 以 通过 将 ! 符号 作为 前 缀 在 Python 中 执行 任何 命令 行 命令 。 例 如 ，Ls、pwd 和 echo 
命令 可 以 按照 以 下 方式 运行 : 


In [1]: !Ls 
myproject. txt 


In [2]: !pwd 
/home/jake/projects/myproject 


In [3]: !echo "printing from the shell" 
printing from the shell 


1.6.3 在 shell 中 传 入 或 传 出 值 


shell 命令 不 仅 可 以 从 Python 中 调用 ， 还 可 以 和 卫 ython 命名 空间 进行 交互 。 例 如 ， 你 可 
以 通过 一 个 赋值 操纵 符 将 任何 shell 命令 的 输出 保存 到 一 个 Python 列表 
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In [4]: contents = !ls 


In [5]: print(contents) 
['myproject.txt'] 


In [6]: directory = !pwd 


In [7]: print(directory) 
['/Users/jakevdp/notebooks/tmp/myproject'] 








请 注意 ， 这 些 结果 并 不 以 列表 的 形式 返回 ， 而 是 以 IPython 中 定义 的 一 个 特殊 shell 返回 类 


型 的 形式 返回 : 


In [8]: type(directory) 
IPython.utils. text.SList 





这 看 上 去 和 Python 列表 很 像 ， 并 且 可 以 像 列 表 一 样 操作 。 但 是 这 种 类 型 还 有 其 他 功能 ， 例 








如 grep 和 fields 方法 以 及 s、n 和 Pp 属性， 允许 你 轻松 地 搜索 、 过 滤 和 显示 结 





用 IPython 内 置 的 帮助 来 查看 更 多 的 详细 信息 。 


果 。 你 可 以 


另 一 个 方向 的 交互 ， 即 将 Python 变量 传 入 shell， 可 以 通过 {varname} 语法 实现 : 


In [9]: message = "hello from Python" 


In [10]: !echo {message} 
hello from Python 


变量 名 包含 在 大 括号 内 ， 在 shell 命令 中 用 实际 的 变量 替代 。 


1.7 与 shell 相 关 的 魔法 命令 





In [11]: !pwd 
/home/jake/projects/myproject 


In [12]: !cd .. 


In [13]: !pwd 
/home/jake/projects/myproject 





原因 是 Notebook 中 的 shell 命令 是 在 一 个 临时 的 分 支 shell 中 执行 的 。 如 果 你 希 


持久 的 方式 更 改 工作 路 径 ， 可 以 使 用 %cd 魔法 命令 : 


In [14]: %cd .. 
/home/jake/projects 


事实 上 ， 默 认 情 况 下 你 甚至 可 以 不 用 % 符 号 实现 该 功能 : 


In [15]: cd myproject 
/home/jake/projects/myproject 


操作 IPython shell 一 段 时 间 后 ， 你 可 能 会 注意 到 你 不 能 通过 !cd 来 导航 文件 系统 : 


望 以 一 种 更 


这 种 方式 被 称 作 自 动 魔法 (automagic) 国 数 ， 可 以 通过 %automagic 魔法 函数 进行 翻转 。 
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除了 %cd， 其 他 可 用 的 类 似 shell 的 魔法 国 数 还 有 %cat、%cp、%env、%Ls、%man、%mkdir、 
%more、%mv、%pwd、%rm 和 %rmdir。 如 果 automagic 被 打开 ， 以 上 任何 一 个 魔法 命令 都 可 以 
省 略 % 符 号 ， 这 使 得 你 可 以 将 IPython 提示 符 当 作 普 通 shell 一 样 使 用 : 


In [16]: mkdir tmp 


In [17]: ls 
myproject.txt tmp/ 


In [18]: cp myproject.txt tmp/ 


In [19]: ls tmp 
myproject .txt 


In [20]: rm -r tmp 


这 种 在 和 Python 会话 相同 的 窗口 中 访问 shell 的 方式 ， 意 味 着 你 在 编辑 Python 代码 时 ， 可 
以 减少 在 Python 解释 器 和 shell 之 间 来 回 切换 的 次 数 。 


上 全 St 
1.8 ”错误 和 调试 
代码 开发 和 数据 分 析 经 常 需要 一 些 试 错 ， 而 IPython 包含 了 一 系列 提高 这 一 流程 效率 的 


工具 。 这 一 市 将 先 简要 介绍 一 些 控制 Python 异常 报告 的 选项 ， 然 后 探索 调试 代码 中 错误 
的 工具 。 


1.8.1 控制 异常 : %xmode 

大 多 数 时 候 ， 当 一 个 Python 脚本 未 执行 通过 时 ， 会 抛 出 一 个 异常 。 当 解释 器 捕获 到 这 些 异 
常 中 的 一 个 时 ， 可 以 在 轨迹 追溯 (traceback) 中 找到 引起 这 个 错误 的 原因 。 利 用 %xmode 魔 
法 函数 ，IPython 允许 你 在 异常 发 生 时 控制 打印 信息 的 数量 。 以 下 面 的 代码 为 例 : 


In[1]: def funci(a, b): 
return a / b 

















def func2(x) : 
a = X 
b=x-1 
return funci(a, b) 


In[2]: func2(1) 


ZeroDivisionError Traceback (most recent call last) 


<ipython-input-2-b2e110f6fc8f^gt; in <module>() 
----> 1 func2(1) 


<ipython-input-1-d849e34d61fb> in func2(x) 
5 a = X 

6 b=x-1 

7 


----> return func1(a，b) 
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<ipython-input-1-d849e34d61fb> in func1(a，b) 
1 def funci(a, b): 


----> 2 return a / b 
3 
4 def func2(x): 
5 a = X 


ZeroDivisionError: division by zero 


调用 func2 国 数 导 致 一 个 错误 ， 阅 读 打印 的 轨迹 可 以 清楚 地 看 见 发 生 了 什么 。 默 认 情 况 下 ， 
这 个 轨迹 信息 包括 几 行 ， 显 示 了 导致 错误 的 每 个 步骤 的 上 下 文 。 利 用 %xmode 魔法 函数 ( 简 





称 异 常 模式 )， 可 以 改变 打印 的 信息 。 


%xmode 有 一 个 输入 参数 ， 即 模式 。 模 式 有 3 个 可 选项 : Plain、Context 和 Verbose。 默 认 


情况 下 是 Context， 该 模式 的 输出 结果 我 们 已 经 见 过 。PLain 更 紧凑 ， 
In[3]: %xmode Plain 


Exception reporting mode: Plain 


In[4]: func2(1) 


Traceback (most recent call last): 


File "<ipython-input-4-b2e110f6fc8f>", line 1, in <module> 
func2(1) 


File "<ipython-input-1-d849e34d61fb>", line 7, in func2 
return funci(a, b) 


File "<ipython-input-1-d849e34d61fb>", line 2, in func1 
return a / b 


ZeroDivisionError: division by zero 


Verbose 模式 加 入 了 一 些 人 额 儿 


In[5]: %xmode Verbose 








Exception reporting mode: Verbose 


In[6]: func2(1) 


` 的 信息 ， 包 括 任何 被 调用 的 函数 的 参数 : 


给 出 的 信息 更 少 : 





ZeroDivisionError Traceback (most recent call last) 





<ipython-input-6-b2e110f6fc8f> in <module>() 
----> 1 func2(1) 
global func2 = <function func2 at 0x103729320> 


<ipython-input-1-d849e34d61fb> in func2(x=1) 


5 a = X 
6 bD: SX 
= 7 return func1(a，b) 


global func1 = <function func1 at 0x1037294d0> 
a=1 
b = 0 


<ipython-input-1-d849e34d61fb> in func1(a=1，b=0) 
1 def funci(a, b): 


----> 2 return a / b 
a=1 
b=0 
3 
4 def func2(x): 
5 a = X 


ZeroDivisionError: division by zero 
这 些 额外 的 信息 可 以 帮助 你 发 现 为 什么 会 出 现 异常 。 那 么 为 什么 不 在 所 有 场景 中 都 使 用 
Verbose 模式 呢 ? 这 是 因为 如 果 代 码 变 得 更 复杂 ， 这 种 方式 的 轨迹 追溯 会 变 得 非常 长 。 根 
据 不 同情 境 ， 有 时 默认 模式 的 简要 描述 更 容易 处 理 。 


1.8.2 调试: 当 阅 读 轨迹 追溯 不 足以 解决 问题 时 

标准 的 Python 交互 式 调试 工具 是 pdb， 它 是 Python 的 调试 器 。 这 个 调试 器 允许 用 户 逐 行 运 
行 代 码 ， 以 便 查看 可 能 导致 错误 的 原因 。IPython 增强 版 本 的 调试 器 是 tpdb， 它 是 IPython 
专用 的 调试 器 。 

启动 和 运行 这 两 个 调试 器 的 方式 有 很 多 ， 这 里 不 会 一 一 介绍 。 你 可 以 通过 在 线 文档 了 解 关 
于 它们 的 更 多 信息 。 

IPython 中 最 方便 的 调试 界面 可 能 就 是 %debug 魔法 命令 了 。 如 果 你 在 捕获 异常 后 调用 该 调 
试 器 ， 它 会 在 异常 点 自动 打开 一 个 交互 式 调试 提示 符 。ipdb 提示 符 让 你 可 以 探索 栈 空间 的 
当前 状态 ， 探 索 可 用 变量 ， 甚 至 运行 Python 命令 | 

来 看 看 最 近 的 异常 ， 然 后 执行 一 些 简单 的 任务 一 一 打印 a 和 b 的 值 ， 然 后 输入 quit 来 结束 
调试 会 话 : 


In[7]: %debug 
























































> <ipython-input-1-d849e34d61fb>(2)func1() 
1 def funci(a, b): 
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----> 2 return a / b 
3 


ipdb> print(a) 
1 

ipdb> print(b) 
0 

ipdb> quit 


这 个 交互 式 调试 器 的 功能 不 止 如 此 ， 我 们 其 至 可 以 设置 单 步 入 栈 和 上 





4 栈 来 查看 各 变量 的 值 : 








In[8]: %debug 


> <ipython-input-1-d849e34d61fb>(2)func1() 
1 def funci(a, b): 


---->2 return a / b 
3 

ipdb> up 

> <ipython-input-1-d849e34d61fb>(7)func2() 
5 a = X 
6 b=x-1 

---->7 return funci(a, b) 


ipdb> print(x) 

1 

ipdb> up 

> <ipython-input-6-b2e110f6fc8f>(1)<module>() 
----> 1 func2(1) 


ipdb> down 

> <ipython-input-1-d849e34d61fb>(7)func2() 
5 a = X 
6 b=x-1 

---->7 return funci(a, b) 

ipdb> quit 


这 让 你 可 以 快速 找到 导致 错误 的 原因 ， 并 且 知 道 是 哪 一 个 函数 调用 导致 了 错误 。 








如 果 你 希望 在 发 生 任何 异常 时 都 自动 启动 调试 器 ， 可 以 用 %pdb 魔法 函数 来 启动 这 个 


动 过 程 : 
In[9]: %xmode Plain 
%pdb on 
func2(1) 


Exception reporting mode: Plain 
Automatic pdb calling has been turned ON 


Traceback (most recent call last): 


File "<ipython-input-9-569a67d2d312>", line 3, in <module> 
func2(1) 








File "<ipython-input-1-d849e34d61fb>", line 7, in func2 
return funci(a, b) 


File "<ipython-input-1-d849e34d61fb>", line 2, in func1 
return a / b 


ZeroDivisionError: division by zero 


> <ipython-input-1-d849e34d61fb>(2)func1() 
1 def funci(a, b): 
--> 2 return a / b 
3 


ipdb> print(b) 
0 


ipdb> quit 


最 后 ， 如 果 你 有 一 个 脚本 ， 并 且 和 希望 以 交互 式 模式 运行 ， 则 可 以 用 %run -d 命令 来 运行 ， 
并 利用 next 命令 单 步 向 下 交互 地 运行 代码 。 

部 分 调试 命令 

这 里 仅仅 列举 了 一 部 分 可 用 的 交互 式 调 试 命令 。 下 表 中 包含 了 一 些 常 用 且 有 用 的 命令 
及 其 描述 。 
































命令 描述 

list 显示 文件 的 当前 路 径 

hlelp) 显示 命令 列表 ， 或 查找 特定 命令 的 帮助 信息 
qCuit) 退出 调试 器 和 程序 

c(ontinue) 退出 调试 器 ， 继 续 运 行程 序 

n(ext) 跳 到 程序 的 下 一 步 

<enter> 重复 前 一 个 命令 

plrint) 打印 变量 

s(tep) 步 入 子 进程 





r(eturn) 从 子 进程 跳出 


在 调试 器 中 使 用 help 命令 ， 或 者 查看 ipdb 的 在 线 文 档 (https://github.com/gotcha/ipdb) 获 
取 更 多 的 相关 信息 。 


1.9 代码 的 分 析 和 计时 


在 开发 代码 和 创建 数据 处 理 管道 的 过 程 中 ， 经 常 需要 在 各 种 实现 方式 之 间 取 舍 ， 但 在 开发 
算法 的 早期 就 考虑 这 些 事情 会 适得其反 。 正 如 高 德 纳 的 名 言 所 说 :“ 大 约 97% 的 时 间 ， 我 
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们 应 该 忘记 微小 的 效率 差别 ， 过 早 优化 是 一 切 罪恶 的 根源 。” 


不 过 ,一 旦 代码 运行 起 来 ， 提 高 代码 的 运行 效率 总 是 有 用 的 。 有 时候 查 看 给 定 命令 或 一 
组 命令 的 的 运行 时 间 非 常 有 用 ， 有 时 候 深 入 多 行进 程 并 确定 一 系列 复杂 操作 的 效率 瓶颈 
也 非常 有 用 。 Ee 提供 了 很 多 执行 这 些 代码 计时 和 分 析 的 操作 函数 。 我 们 将 讨论 以 下 
IPython 魔法 命令 。 



































%time 

对 单个 语句 的 执行 时 间 进 行 计时 。 
%timeit 

对 单个 语句 的 重复 执行 进行 计时 ， 以 获得 更 高 的 准确 度 。 
oe 

用 分 析 器 运行 代码 。 

%Lprun 

利用 逐 行 分 析 器 运行 代码 。 
%memit 

测量 单个 语句 的 内 存 使 用 。 
%mprun 





通过 逐 行 的 内 存 分 析 器 运行 代码 。 


最 后 4 条 魔法 命令 并 不 是 与 IPython . 绑 的 ， 你 需要 安装 line_profiler 和 memory_ 
rh 扩展 。 我 们 将 在 接 下 来 的 部 分 介绍 这 些 扩展 。 








1.9.1 代码 段 计 时 : %timeit 和 和 %time 


1.4 节 对 魔法 函数 进行 了 简单 的 介绍 ， 我 们 了 解 了 %timeit 行 魔法 和 %%timeit 单元 魔法 ， 
其 中 %%timeit 可 以 让 代码 段 重复 运行 来 计算 代码 的 运行 时 间 : 


In[1]: %timeit sum(range(100)) 




















100000 loops, best of 3: 1.54 hs per loop 


请 注意 ， 因 为 这 个 操作 很 快 ， 所 以 %timeit 自动 让 代码 段 重复 运行 很 多 次 。 对 于 较 慢 的 命 
令 ，%timett 将 自动 调整 并 减少 重复 执行 的 次 数 : 
In[2]: %%timeit 
total = 0 
for i in range(1000) : 
for j in range(1000) : 
totaL += i * (-1) ** j 
1 loops, best of 3: 407 ms per loop 


有 时 候 重 复 一 个 操作 并 不 是 最 佳 选择 。 例 如 ， 如 果 有 一 个 列表 需要 排序 ， 我 们 可 能 会 被 重 


复 操作 误导 。 对 一 个 预先 排 好 序 的 列表 进行 排序 ， 比 对 一 个 无 序 的 列表 进行 排序 要 快 ， 所 
以 重复 运行 将 使 结果 出 现 偏差 : 









































In[3]: import random 
L= [random.random() for i in range(100000)] 
%timeit L.sort() 


100 loops, best of 3: 1.9 ms per loop 


对 于 这 种 情况 ，%time 魔法 函数 可 能 是 更 好 的 选择 。 对 于 运行 时 间 较 长 的 命令 来 说 ， 如 果 
较 短 的 系统 延迟 不 太 可 能 影响 结果 ， 那 么 %time 魔法 函数 也 是 一 个 不 错 的 选择 。 下 面 对 一 
个 无 序列 表 排 序 和 一 个 已 排序 列表 排序 分 别 计时 : 
In[4]: import random 
L = [random.random() for i in range(100000)] 


print("sorting an unsorted list:") 
%time L.sort() 




















sorting an unsorted list: 
CPU times: User 40.6 ms, sys: 896 Hs, total: 41.5 ms 
Wall time: 41.5 ms 


In[5]: print("sorting an already sorted list:") 
%time L.sort() 


sorting an already sorted list: 
CPU times: User 8.18 ms, sys: 10 pHs, total: 8.19 ms 
Wall time: 8.24 ms 


可 以 看 出 ， 虽 然 对 已 排序 的 列表 进行 排序 比 对 未 排序 的 列表 进行 排序 快 很 多 ， 但 是 即使 
同样 对 已 排序 的 列表 进行 排序 ， 用 %time 计时 也 比 用 %timeit 计时 花费 的 时 间 要 长 。 这 
是 由 于 %timeit 在 底层 做 了 一 些 很 聪明 的 事情 来 阻止 系统 调用 对 计时 过 程 的 干扰 。 例 如 ， 
%timeit 会 阻止 清理 未 利用 的 Python 对 象 ( 即 垃圾 回收 )， 该 过 程 可 能 影响 计时 。 因 此 ， 
%timeit 通常 比 %time 更 快 得 到 结果 。 
和 %timeit 一 样 ，%time 魔法 命令 也 可 以 通过 双 百 分 号 语法 实现 多 行 代码 的 计时 : 
In[6]: %%time 
totaL = 0 
for i in range(1000) : 


for j in range(1000) : 
total += 1x (-1) xx j 











CPU times: user 504 ms, sys: 979 Hs, total: 505 ms 
Wall time: 505 ms 


关于 %time 和 %timeit 的 更 多 信息 以 及 它们 可 用 的 参数 选项 ， 可 以 通过 IPython 的 帮助 功能 
(如 在 了 Python 提示 符 中 输入 %time?) 获取 。 


1.9.2 分 析 整 个 脚本 : %prun 

一 个 程序 是 由 很 多 单个 语句 组 成 的 ， 有 时候 对 整个 脚本 计时 比 对 单个 语句 计时 更 重要 。 
Python 包含 一 个 内 置 的 代码 分 析 器 (你 可 以 在 Python 文档 中 了 解 更 多 相关 信息 )， 但 是 
IPython 提供 了 一 种 更 方便 的 方式 来 使 用 这 个 分 析 器 ， 即 通过 魔法 函数 %prun 实现 。 
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在 以 下 例子 中 ， 我 们 将 定义 一 个 简单 的 函数 ， 该 函数 会 完成 一 些 计算 : 


In[7]: def sum of_lists(N): 
total = 0 
for i in range(5): 
L= [jij 人 ^ (jij >> i) for j in range(N)] 
total += sum(L) 
return total 


现在 用 %prun 和 一 个 函数 调用 来 看 分 析 结 果 : 


In[8]: %prun sum_of_lists(1000000) 


在 Notebook 中 ， 输 出 结果 打印 在 页 面 中 ， 如 下 所 示 : 


14 function calls in 0.714 seconds 
































Ordered by: internal time 


ncalls tottime percall cumtime percall filename:lineno(function) 

0.599 0.120 0.599 0.120 <ipython-input-19>:4(<listcomp>) 
0.064 0.013 0.064 0.013 {built-in method sum} 

0.036 0.036 0.699 0.699 <ipython-input-19>:1(sum of_lists) 
0.014 0.014 0.714 0.714 <string>:1(<module>) 

0.000 0.000 0.714 0.714 {built-in method exec} 


结果 是 一 个 表格 ， 该 表格 按照 每 个 函数 调用 的 总 时 间 ， 显 示 了 哪里 的 执行 时 间 最 长 。 在 这 
个 例子 中 ， 大 部 分 执行 时 间 用 在 sun_of_tists 的 列表 综合 中 。 通过 观察 这 个 数据 ， 我 们 可 
以 开始 考虑 通过 调整 哪里 来 提升 算法 的 性 能 。 
关于 %prun 的 更 多 信息 以 及 它们 可 用 的 参数 选项 ， 可 以 通过 IPython 的 帮助 功能 (在 
IPython 提示 符 中 输入 %prun?) 获取 。 


1.9.3 用 %Lprun 进 行 逐 行 分 析 


用 %prun 对 代码 中 的 每 个 国 数 进 行 分 析 非 常 有 用 ， 但 有 时 逐 行 代码 分 析 报 告 更 方便 。 该 功 
能 并 没有 内 置 于 Python 或 IPython， 但 是 可 以 通过 安装 Line_profiler 包 来 实现 。 首 先 利 
用 Python 的 包 管 理工 具 pip 安装 Line_profiler 包 : 


$ pip install line profiler 


接 下 来 可 以 用 IPython 导入 line_profiler 包 提 供 的 IPython 扩展 : 


In[9]: %load ext line_profiler 


现在 %Lprun 命令 就 可 以 对 所 有 函数 进行 逐 行 分 析 了。 在 下 面 的 例子 中 ， 我 们 需要 明确 指出 
要 分 析 哪 些 函 数 : 

In[10]: %Lprun -f sum_of_Lists sum_of_Lists(5000) 
和 前 面 的 性 能 分 析 过 程 一 样 ，Notebook 会 在 页 面 上 返回 结果 ， 如 下 所 示 : 


Timer unit: 1le-06 s 


FF wm wm 















































Total time: 0.009382 s 
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File: <ipython-input-19-fa2be176cc3e> 
Function: sum of_ lists at line 1 


Line # Hits Time Per Hit % Time Line Contents 
1 def sum of_lists(N): 
2 1 2 2.0 0.0 total = 0 
3 6 8 153 0.1 for i in range(5): 
4 5 9001 1800.2 95.9 L= [ij^ (i >> 1) ... 
5 5 371 74.2 4.0 total += sum(L) 
6 1 0 0.0 0.0 return total 








最 上 面 的 信息 给 出 了 阅读 这 些 结果 的 关键 : 报告 中 的 运行 时 间 单 位 是 微 秒 ， 我 们 可 以 看 到 
程序 中 哪些 地 方 最 耗 时 。 可 以 通过 这 些 信息 修改 代码 ， 使 其 更 高 效 地 实现 我 们 的 目的 。 


更 多 关于 prun 的 信息 以 及 相关 的 参数 选项 ， 可 以 通过 IPython 的 帮助 功能 (在 IPython 
提示 符 中 输入 %Lprun?) 获取 。 


1.9.4 ”用 %memit 和 %mprun 进 行内 存 分 析 


另 一 种 分 析 是 分 析 一 个 操作 所 用 的 内 存量 ， 这 可 以 通过 IPython 的 另 一 个 扩展 来 评估 ， 即 
memory_profiler。 和 Line_profiler 一 样 ， 首 先 用 pip 安装 这 个 扩展 : 

















$ pip install memory_profiler 


然后 用 IPython 导入 该 扩展 : 

In[12]: %Load_ext memory_profiler 
内 存 分 析 扩 展 包括 两 个 有 用 的 魔法 函数 : %menmit 魔法 函数 ( 它 提供 的 内 存 消耗 计算 功能 
似 于 %timeit) 和 %mprun 魔法 函数 ( 它 提供 的 内 存 消耗 计算 功能 类 似 于 %Lprun)。%memit 
函数 用 起 来 很 简单 : 


In[13]: %memit sum_of_lists(1000000) 

















peak memory: 100.08 MiB, increment: 61.36 MiB 
可 以 看 到 ， 这 个 函数 大 概 消 耗 了 100MB 的 内 存 。 


对 于 逐 行 代码 的 内 存 消 耗 描述 ， 可 以 用 %mprun 魔法 函数 。 但 不 幸 的 是 ， 这 个 魔法 函数 仅仅 
对 独立 模块 内 部 的 函数 有 效 ， 而 对 于 Notebook 本 身 不 起 作用 。 所 以 首先 用 %%file 魔法 函 
数 创 建 一 个 简单 的 模块 ， 将 该 模块 命名 为 mprun_demo.py。 它 包含 sum_of_lists 畏 数 ， 该 
函数 中 包含 一 次 加 法 ， 能 使 内 存 分 析 结 果 更 清晰 : 


In[14]: %%file mprun_demo.py 
def sum of_lists(N): 
total = 0 
for i in range(5): 
L= [jj^ (jij >> i) for j in range(N)] 
total += sum(L) 
del L # remove reference to L 
return total 





Overwriting mprun_demo.py 
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现在 可 以 重新 导入 函数 ， 并 运行 逐 行内 存 分 析 器 


In[15]: from mprun_demo import sum_of_lists 
%mprun -f sum_of_lists sum of_lists(1000000) 


重 中 打印 的 结果 概述 了 该 函数 的 内 存 消 耗 情 况 ， 如 下 所 示 : 


Filename: ./mprun_demo.py 








司 











Line # Mem Usage Increment Line Contents 


4 71.9 MiB 0.0 MiB L= [j^(j >> i) for jin range(N)] 


Filename: ./mprun_demo.py 


Line # Mem usage Increment Line Contents 
1 39.0 MiB 0.0 MiB def sum of_lists(N): 
2 39.0 MiB 0.0 MiB total = 0 
3 46.5 MiB 7.5 MiB for i in range(5): 
4 71.9 MiB 25.4 MiB L= [jj 人 ^ (jij >> i) for j in range(N)] 
3 71.9 MiB 0.0 MiB total += sum(L) 
6 46.5 MiB -25.4 MiB del L # remove reference to L 
7 39.1 MiB 7.4 MiB return total 








Increment 列 告诉 我 们 每 行 代码 对 总 内 存 预算 的 影响 : 创建 和 删除 列表 L 时 用 掉 了 25MB 
的 内 存 。 这 是 除了 Python 解释 器 本 身 外 最 消耗 内 存 资源 的 部 分 。 


关于 %menit 和 %mprun 的 更 多 信息 以 及 相关 的 参数 选项 ， 可 以 通过 IPython 的 帮助 功能 (在 
IPython 提示 符 中 输入 %memit?) 获取 。 


1.10 1Python 参 考 资 料 


这 一 章 仅仅 粗浅 地 介绍 了 如 何 利 用 Python 完成 数据 科学 任务 ， 你 可 以 在 其 他 
网 上 找到 更 多 信息 。 下 面 列举 了 其 中 一 些 可 能 对 你 有 帮助 的 资源 。 


1.10.1 网络 资 源 
IPython 网 站 (http://ipython.org) 
IPython 网 站 链接 到 各 种 相关 文档 、 示 例 、 教 程 以 及 很 多 其 他 资源 。 


nbviewer 网 站 (http://nbviewer.ipython.org/) 
be els al ee hi ld asd ss 
些 示例 Notebook， 通 过 这 些 示 例 你 可 以 看 到 其 他 人 用 IPython 做 了 什么 。 


有 趣 的 IPython Notebook 集合 (http://github.com/ipython/ipython/wiki/A-gallery-of-interesting- 
IPython-Notebooks/) 
这 是 由 nbviewer 运行 的 最 全 的 Notebook 列表 (并 且 该 列表 还 在 不 断 增长 )， 展 示 了 通 
过 IPython 可 以 进行 多 深 、 多 广 的 数值 分 析 。 它 还 包括 短小 的 示例 、 全 套 课程 教程 以 及 
Notebook 格式 的 图 书 








页 
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视频 教程 
通过 搜索 互联 网 ， 你 可 以 找到 很 多 IPython 的 视频 教程 。 强 烈 建议 你 搜索 Fernando 
Perez 和 Brian Granger 在 PyCon、SciPy 和 PyData 会 议 中 的 视频 ， 他 们 二 位 是 IPython 
和 Jupyter 的 主要 创建 者 和 维护 者 。 


1.10.2 ”相关 图 书 

《利用 Python 进行 数据 分 析 》 
Wes McKinney 的 这 本 书 用 一 章 介绍 了 如 何 像 数据 科学 家 那样 使 用 IPython。 尽 管 其 中 的 
很 多 内 容 与 上 面 介绍 的 内 容 有 所 重复 ， 但 多 一 个 视角 总 不 是 坏事 。 

Learning IPython for Interactive Computing and Data Visualization (http:Wbitly/2eLCBB7) 
Cyrille Rossant 的 这 本 蒲 书 对 如 何 用 IPython 进行 数据 分 析 作 了 很 好 的 介绍 。 


IPython Interactive Computing and Visualization Cookbook (http:Wbitly/2fCEINE) 
这 本 也 是 Cyrille Rossant 的 著作 。 它 篇 幅 更 长 ， 并 且 深 入 介绍 了 将 IPython 用 于 数据 科 
学 的 方法 。 这 本 书 不 仅仅 是 关于 IPython 的 ， 还 涉及 了 数据 科学 中 更 深 、 更 广 的 主题 。 
最 后 要 提醒 你 的 是 ， 你 可 以 自己 寻求 帮助 。 如 果 你 能 充分 且 经 常 使 用 IPython 的 ? 式 帮助 
功能 (详情 请 参见 1.2 市 )， 会 对 你 大 有 帮助 。 当 你 学 习 本 书 或 别处 介绍 的 示例 时 ， 可 以 用 
这 个 功能 来 熟悉 IPython 提供 的 所 有 工具 。 
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第 2 章 


NumPy 入 门 





本 章 和 第 3 章 将 介绍 通过 Python 有 效 导 入 、 存 储 和 操作 内 存 数据 的 主要 技巧 。 这 个 主题 
非常 广泛 ， 因 为 数据 集 的 来 源 与 格式 都 十 分 丰富 ， 比 如 文档 集合 、 图 像 集合 、 声 音 片 段 集 
合 、 数 值 数据 集合 ， 等 等 。 这 些 数据 虽然 存在 明显 的 异 构 性 ， 但 是 将 所 有 数据 简单 地 看 作 
数字 数组 非常 有 助 于 我 们 理解 和 处 理 数据 。 


例如 ， 可 以 将 图 像 (尤其 是 数字 图 像 ) 简单 地 看 作 二 维 数字 数组 ， 这 些 数字 数组 代表 各 区 
域 的 像素 值 ， 声 音 片 段 可 以 看 作 时 间 和 强度 的 一 维 数组 ;文本 也 可 以 通过 各 种 方式 转换 成 
数值 表示 ， 一 种 可 能 的 转换 是 用 二 进 制 数 表 示 特 定单 词 或 单词 对 出 现 的 频率 。 不 管 数据 是 
何 种 形式 ， 第 一 步 都 是 将 这 些 数据 转换 成 数值 数组 形式 的 可 分 析 数 据 (5.4 节 将 更 详细 地 
介绍 一 些 实现 这 种 数据 转换 的 示例 )。 


正 因 如 此 ， 有 效 地 存储 和 操作 数值 数组 是 数据 科学 中 绝对 的 基础 过 程 。 我 们 将 介绍 Python 
中 专门 用 来 处 理 这 些 数值 数组 的 工具 : NumPy 包 和 Pandas 包 (将 在 第 3 章 介 绍 )。 


本 章 将 详细 介绍 NumPy。NumPy (Numerical Python 的 简称 ) 提供 了 高 效 存储 和 操作 密集 
数据 缓存 的 接口 。 在 某 些 方面 ， NumPy 数组 与 Python 内置 的 列表 类 型 非常 相似 。 但 是 随 
着 数组 在 维度 上 变 大 ，NumPy 数组 提供 了 更 加 高 效 的 存储 和 数据 操作 。NumPy 数组 几乎 
是 整个 Python 数据 科学 工具 生态 系统 的 核心 。 因 此 ， 不 管 你 对 数据 科学 的 哪个 方面 感 兴 
趣 ， 花 点 时 间 学 习 如 何 有 效 地 使 用 NumPy 都 是 非常 值得 的 。 

如 果 你 听从 前 言 给 出 的 建议 安装 了 Anaconda， 那 么 你 已 经 安装 好 NumPy， 并 可 以 使 用 它 
了 。 如 果 你 是 个 体验 派 ， 则 可 以 到 NumPy 网 站 (http:/www.numpy.org/) 按照 其 安装 指导 
进行 安装 。 安 装 好 后 ， 你 可 以 导入 NumPy 并 再 次 核实 你 的 NumPy 版 本 : 


In[1]: import numpy 
numpy. verstion_ 
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针对 本 章 中 介绍 的 NumPy 功能 ， 我 建议 你 使 用 NumPy 1.8 及 之 后 的 版 本 。 遵 循 传统 ， 你 
将 发 现 SciPy /PyData 社区 中 的 大 多 数 人 都 用 np 作为 别名 导入 NumPy: 


In[2]: import numpy as np 


在 本 章 以 及 之 后 的 内 容 中 ， 我 们 都 将 用 这 种 方式 导入 和 使 用 NumPy。 











对 内 置 文档 的 提醒 
当 你 阅读 本 章 时 ， 不 要 忘记 IPython 提供 了 快速 探索 包 的 内 容 的 方法 〈 用 Tab 键 自动 
补 全 ) ， 以 及 各 种 函数 的 文档 (用 ? 符号 )。 如 果 你 还 需要 回顾 一 下 ， 可 以 翻 回 1.2 节 。 


例如 ， 要 显示 numpy 命名 空间 的 所 有 内 容 ， 可 以 用 如 下 方式 : 
In [3]: np.<TAB> 
要 显示 NumPy 内 置 的 文档 ， 可 以 用 如 下 方式 : 


In [4]: np? 








要 获取 更 详细 的 文档 以 及 教程 和 其 他 资源 ， 可 以 访问 http://www.numpy.org。 


2.1 理解 Python 中 的 数据 类 型 


要 实现 高 效 的 数据 驱动 科学 和 计算 ， 需 要 理解 数据 是 如 何 被 存储 和 操作 的 。 本 闻 将 介绍 在 
Python 语言 中 数据 数组 是 如 何 被 处 理 的 ， 并 对 比 NumPy 所 做 的 改进 。 理 解 这 个 不 同 之 处 
是 理解 本 书 其 他 内 容 的 基础 。 


Python 的 用 户 往 往 被 其 易 用 性 所 吸引 ， 其 中 一 个 易 用 之 处 就 在 于 动态 输入 。 静 态 类 型 的 语 
言 (如 C 或 Java) 往往 需要 每 一 个 变量 都 明确 地 声明 ， 而 动态 类 型 的 语言 (例如 Python) 
可 以 跳 过 这 个 特殊 规定 。 例 如 在 C 语言 中 ， 你 可 能 会 按照 如 下 方式 指定 一 个 特殊 的 操作 : 
/* CC 代码 */ 
int result = 0; 
for(int i=0; i<100; i++){ 
result += i; 
























































} 

而 在 Python 中 ， 同 等 的 操作 可 以 按照 如 下 方式 实现 : 
# Python 代 码 
result = 0 


for i in range(100): 
result += i 
注意 这 里 最 大 的 不 同 之 处 : 在 C 语言 中 ， 每 个 变量 的 数据 类 型 被 明确 地 声明 ， 而 在 Python 
中 ， 类 型 是 动态 推断 的 。 这 意味 着 可 以 将 任何 类 型 的 数据 指定 给 任何 变量 : 


# Python 代码 
X = 4 
x = "four" 
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这 里 已 经 将 x 变量 的 内 容 由 整 型 转变 成 了 字符 串 ， 而 同样 的 操作 在 C 语言 中 将 会 导致 ( 取 
决 于 编译 器 设置 ) 编译 错误 或 其 他 未 知 的 后 果 : 

/* 5C 代 码 */ 

int x = 4; 


x = "four"; // 编译 失败 


这 种 灵活 性 是 使 Python 和 其 他 动态 类 型 的 语言 更 易 用 的 原因 之 一 。 理 解 这 一 特性 如 何 工作 
是 学 习 用 Python 有 效 且 高 效 地 分 析 数 据 的 重要 因素 。 但 是 这 种 类 型 灵活 性 也 指出 了 一 个 事 
实 : Python 变量 不 仅 是 它们 的 值 ， 还 包括 了 关于 值 的 类 型 的 一 些 额 外 信息 ， 本 市 接 下 来 的 
内 容 将 进行 更 详细 的 介绍 。 


2.1.1 Python 整 型 不 仅仅 是 一 个 整 型 


标准 的 Python 实现 是 用 C 语言 编写 的 。 这 意味 着 每 一 个 Python 对 象 都 是 一 个 聪明 的 伪 C 
语言 结构 体 ， 该 结构 体 不 仅 包含 其 值 ， 还 有 其 他 信息 。 例 如 ， 当 我 们 在 Python 中 定义 一 个 
整 型 ， 例 如 x = 16600 时 ，x 并 不 是 一 个 “原生 ” 整 型 ， 而 是 一 个 指针 ， 指 向 一 个 C 语言 
的 复合 结构 体 ， 结 构 体 里 包含 了 一 些 值 。 查 看 Python 3.4 的 源 代码 ， 可 以 发 现 整 型 (长 整 
型 ) 的 定义 ， 如 下 所 示 (C 语言 的 宏 经 过 扩展 之 后 ) : 
struct _Longobject { 

long ob_refcnt; 

PyTypeObject *ob_type; 

size t ob_size; 

long ob_digit[1]; 




















}; 
Python 3.4 中 的 一 个 整 型 实际 上 包括 4 个 部 分 。 
。 ob_refcnt 是 一 个 引用 计数 ， 它 帮助 Python 默默 地 处 理 内 存 的 分 配 和 回收 。 
。 ob_type 将 变量 的 类 型 编码 。 
。 ob_size 指定 接 下 来 的 数据 成 员 的 大 小 。 
。 ob_digit 包含 我 们 希望 Python 变量 表示 的 实际 整 型 值 。 
这 意味 着 与 C 语言 这 样 的 编译 语言 中 的 整 型 相 比 ， 在 Python 中 存储 一 个 整 型 会 有 一 些 开 
销 ， 正 如 图 2-1 所 示 。 








-TT 

















Python 整 型 








C 整 型 











图 2-1: C 整 型 和 Python 整 型 的 区 别 


这 里 Py0bject_HEAD 是 结构 体 中 包含 引用 计数 、 类 型 编码 和 其 他 之 前 提 到 的 内 容 的 部 分 。 
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两 者 的 差异 在 于 ，C 语言 整 型 本 质 上 是 对 应 某 个 内 存 位 置 的 标签 ， 里 面 存储 的 字 市 会 编码 
成 整 型 。 而 Python 的 整 型 其 实 是 一 个 指针 ， 指 向 包含 这 个 Python 对 象 所 有 信息 的 某 个 内 
存 位 置 ， 其 中 包括 可 以 转换 成 整 型 的 字 节 。 由 于 Python 的 整 型 结构 体 里 面 还 包含 了 大 量 额 
外 的 信息 ， 所 以 Python 可 以 自由 、 动 态 地 编码 。 但 是 ，Python 类 型 中 的 这 些 额 外 信息 也 
会 成 为 负担 ， 在 多 个 对 象 组 合 的 结构 体 中 尤其 明显 。 


2.1.2 Python 列表 不 仅仅 是 一 个 列表 


设想 如 果 使 用 一 个 包含 很 多 Python 对 象 的 Python 数据 结构 ， 会 发 生 什么 ? Python 中 的 标 
准 可 变 多 元 素 容 器 是 列表 。 可 以 用 如 下 方式 创建 一 个 整 型 值 列 表 : 


In[1]: L = list(range(10)) 
| 












































Out[1]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
In[2]: type(L[0]) 
Out[2]: int 


或 者 创建 一 个 字符 串 列 表 : 


In[3]: L2 = [str(c) for c in L] 
L2 





Out [3 20s. 1 2 ds Td Ss 6 "Th WB “9 
In[4]: type(L2[0]) 
Out[4]: str 

因为 Python 的 动态 类 型 特性 ， 其 至 可 以 创建 一 个 异 构 的 列表 : 


In[5]: L3 = [True, "2", 3.0, 4] 
[type(item) for item in L3] 








Out[5]: [bool, str, float, int] 


但 是 想 拥 有 这 种 灵活 性 也 是 要 付出 一 定 代价 的 : 为 了 获得 这 些 灵活 的 类 型 ， 列 表 中 的 每 一 
项 必须 包含 各 自 的 类 型 信息 、 引 用 计数 和 其 他 信息 ， 也 就 是 说 ， 每 一 项 都 是 一 个 完整 的 
Python 对 象 。 来 看 一 个 特殊 的 例子 ， 如 果 列 表 中 的 所 有 变量 都 是 同一 类 型 的 ， 那 么 很 多 信 
息 都 会 显得 多 余 一 一 将 数据 存储 在 固定 类 型 的 数组 中 应 该 会 更 高 效 。 动 态 类 型 的 列表 和 固 
定 类 型 的 (NumPy 式 ) 数组 间 的 区 别 如 图 2-2 所 示 。 

在 实现 层面 ， 数 组 基本 上 包含 一 个 指向 连续 数据 块 的 指针 。 另 一 方面 ，Python 列表 包含 一 
个 指向 指针 块 的 指针 ， 这 其 中 的 每 一 个 指针 对 应 一 个 完整 的 Python 对 象 (如 前 面 看 到 的 
Python 整 型 )。 另 外 ， 列 表 的 优势 是 灵活 ， 因 为 每 个 列表 元 素 是 一 个 包含 数据 和 类 型 信息 
的 完整 结构 体 ， 而 且 列 表 可 以 用 任意 类 型 的 数据 填充 。 固 定 类 型 的 NumPy 式 数组 缺乏 这 
种 灵活 性 ， 但 是 能 更 有 效 地 存储 和 操作 数据 。 
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Nm 5 数组 Python 列 表 
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2-2: C 列表 和 Python 列表 的 区 别 


2.1.3 ”Python 中 的 固定 类 型 数组 


Python 提供 了 儿 种 将 数据 存储 在 有 效 的 、 固 定 类 型 的 数据 缓存 中 的 选项 。 内 置 的 数组 
(array) 模块 (在 Python 3.3 之 后 可 用 ) 可 以 用 于 创建 统一 类 型 的 密集 数组 : 
In[6]: import array 
L = list(range(10)) 
A = array.array('i', L) 
A 














Out[6]: array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
这 里 的 'i' 是 一 个 数据 类 型 码 ， 表 示 数 据 为 整 型 。 


更 实用 的 是 NumPy 包 中 的 ndarray 对 象 。Python 的 数组 对 象 提供 了 数组 型 数据 的 有 效 存 
储 ， 而 NumPy 为 该 数据 加 上 了 高 效 的 操作 。 稍 后 将 介绍 这 些 操作 ， 这 里 先 展 示 几 种 创建 
NumPy 数组 的 方法 。 


从 用 np 别名 导入 NumPy 的 标准 做 法 开始 : 


In[7]: import numpy as np 


2.1.4 从 Python 列表 创建 数组 
首先 ， 可 以 用 np.array 从 Python 列表 创建 数组 : 
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In[8]: # 整 型 数组 : 
np.array([1, 4, 2, 5, 3]) 


Out[8]: array([1, 4, 2, 5, 3]) 


请 记 住 ,不同 于 Python 列表 ，NumPy 要 求 数组 必须 包含 同一 类 型 的 数据 。 如 果 类 型 不 匹 
配 ，NumPy 将 会 向 上 转换 (如 果 可 行 )。 这 里 整 型 被 转换 为 浮 点 型 : 


In[9]: np.array([3.14, 4, 2, 3]) 








out[9]: array([ 3.14, 4. ， 2. ,3.1]) 

如 果 希 望 明确 设置 数组 的 数据 类 型 ， 可 以 用 dtype 关键 字 : 
In[10]: np.array([1, 2, 3, 4], dtype='float32') 
Out[10]: array([ 1., 2., 3., 4.], dtype=float32) 


最 后 ， 不 同 于 Python 列表 ，NumPy 数组 可 以 被 指定 为 多 维 的。 以 下 是 用 列表 的 列表 初始 
化 多 维 数组 的 一 种 方法 : 


In[11]: # 贬 套 列表 构成 的 多 维 数 组 
np.array([range(i, i + 3) for i in [2, 4, 6]]) 


Out[11]: array([[2, 3, 4], 
[4， 352 6]， 
[6，7，8]]) 


内 层 的 列表 被 当 作 二 维 数组 的 行 。 


2.1.5 ”从 头 创建 数 组 


面 对 大 型 数组 的 时 候 ， 用 NumPy 内 置 的 方法 从 头 创 建 数组 是 一 种 更 高 效 的 方法 。 以 下 是 
几 个 示例 : 


In[12]: # 创建 一 个 长 度 为 16 的 数组 ， 数 组 的 值 都 是 6 
np.zeros(10, dtype=int) 





Out[12]: array([0, 0, 0, 0, 0, 0, 9, 0, 0, 0]) 


In[13]: # 创建 一 个 3x 5 的 浮 点 型 数组 ， 数 组 的 值 都 是 1 
np.ones((3, 5), dtype=float) 


Out[13]: array([[ 1., 1., 1., 1., 1.], 
[es Ts ry ls 
9 


In[14]: # 创建 一 个 3 x 5 的 浮 点 型 数组 ， 数 组 的 值 都 是 3.14 
np.fuLL((3，5)，3.14) 


Out[14]: array([[ 3.14, 3.14, 3.14, 3.14, 3.14], 
13] 
[ 3.14, 3.14, 3.14, 3.14, 3.14]]) 
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In[15]: # 创建 一 个 3 x 5 的 浮 点 型 数组 ， 数 组 的 值 是 一 个 线性 序列 
# 从 0 开始 ， 到 26 结 束 ， 步 长 为 2 
# ( 它 和 内 置 的 range() 函 数 类 似 ) 
np.arange(0, 20, 2) 





Out[15]: array([ 6, 2, 4, 6, 8, 10, 12, 14, 16, 18]) 


In[16]: # 创建 一 个 5 个 元 素 的 数组 ， 这 5 个 数 均匀 地 分 配 到 9~1 
np.linspace(0, 1, 5) 


Out[16]: array([ 0. , 0.25, 0.5 , 0.75, 1. ]) 


In[17]: # 创建 一 个 3x 3 的、 在 9~1 均 匀 分 布 的 随机 数组 成 的 数组 
np.random.random((3, 3)) 


out[17]: array([[ 0.99844933, 0.52183819, 0.22421193] ， 
[ 0.08007488, 0.45429293, 0.20941444] ， 
[ 0.14360941, 6.96910973， 0.946117 ]]) 


In[18]: # 创建 一 个 3 x 3 的 、 均 值 为 90、 方差 为 1 的 
# 正 态 分 布 的 随机 数 数组 
np.random.normal(0, 1, (3, 3)) 


Out[18]: array([[ 1.51772646, 0.39614948, -0.10634696]，, 
[ 0.25671348, 0.00732722, 0.37783601] ， 
[ 0.68446945, 0.15926039,-0.70744073]]) 


In[19]: # 创建 一 个 3x 3 的、[9，19) 区 间 的 随机 整 型 数组 
np.random.randint(0, 10, (3, 3)) 





Out[19]: array([[2, 3, 4], 
Es; es 8]， 
[09, 5, 0]]) 


In[20]: # 创建 一 个 3x 3 的 单位 矩阵 
np.eye(3) 





Out[20]: array([[ 1.， 9 

[0.，1.，0.] 

[ 0 3 1 ] 

In[21]: # 创建 一 个 由 3 个 整 型 数组 成 的 未 初始 化 的 数组 
直 


# 数组 的 值 是 内 存 空间 中 的 任意 人 
np.empty(3) 





Out[21]: array([ 1., 1., 1.]) 


2.1.6 ”NumPy 标 准 数据 类 型 
NumPy 数组 包含 同一 类 型 的 值 ， 因 此 详细 了 解 这 些 数据 类 型 及 其 限制 是 非常 重要 的 。 因 为 
NumPy 是 在 C 语言 的 基础 上 开发 的 ， 所 以 C、Fortran 和 其 他 类 似 语言 的 用 户 会 比较 熟悉 
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表 2-1 列 出 了 标准 NumPy 数据 类 型 。 请 注意 ， 当 构建 一 个 数组 时 ， 你 可 以 用 一 个 字符 串 参 
数 来 指定 数据 类 型 ; 

np.zeros(10，dtype='int16 ') 
或 者 用 相关 的 NumPy 对 象 来 指定 : 

np.zeros(10, dtype=np.int16) 


表 2-1: NumPy 标 准 数据 类 型 

































































数据 类 型 描述 

bool_ 布尔 值 ( 真 、True 或 假 、False)， 用 一 个 字 节 存储 

int_ 默认 整 型 (类似 于 C 语言 中 的 Long， 通 常情 况 下 是 int64 或 int32) 

intc 同 C 语言 的 int 相同 (通常 是 int32 或 int64) 

intp 用 作 索 引 的 整 型 (和 C 语言 的 ssize_t 相同 ， 通 常情 况 下 是 int32 或 int64) 
int8 字 节 (byte， 范 围 从 -128 到 127) 

int16 整 型 (范围 从 -32768 到 32767) 

int32 整 型 (范围 从 -2147483648 到 2147483647) 

int64 整 型 (范围 从 -9223372036854775808 到 9223372036854775807) 

uint8 无 符号 整 型 (范围 从 0 到 255) 

uint16 无 符号 整 型 (范围 从 0 到 65535) 

uint32 无 符号 整 型 (范围 从 0 到 4294967295) 

uint64 无 符号 整 型 (范围 从 0 到 18446744073709551615) 

float_ float64 的 简化 形式 

float16 半 精 度 浮 点 型 : 符号 比特 位 ，5 比特 位 指数 (exponent) ，10 比特 位 尾数 (mantissa) 
float32 单 精度 浮 点 型 : 符号 比特 位 ，8 比特 位 指数 ，23 比特 位 尾数 

float64 双 精 度 浮 点 型 : 符号 比特 位 ，11 比特 位 指数 ，52 比特 位 尾数 

complex_ complex128 的 简化 形式 

complex64 复数 ， 由 两 个 32 位 浮 点 数 表 示 

complex128 复数 ， 由 两 个 64 位 浮 点 数 表 示 
































还 可 以 进行 更 高 级 的 数据 类 型 指定 ， 例 如 指定 高 位 字 节 数 或 低位 字 节 数 ; 更 多 的 信息 可 以 
在 NumPy 文档 (http:/numpy.org/) 中 查看 。NumPy 也 支持 复合 数据 类 型 ， 这 一 点 将 会 在 
2.9 节 中 介绍 。 


2.2 NumPy 数 组 基础 


Python 中 的 数据 操作 几乎 等 同 于 NumPy 数组 操作 ， 甚 至 新 出 现 的 Pandas 工具 (第 3 章 将 
介绍 ) 也 是 构建 在 NumPy 数组 的 基础 之 上 的 。 本 市 将 展示 一 些 用 NumPy 数组 操作 获取 数 
据 或 子 数 组 ， 对 数组 进行 分 裂 、 变 形 和 连接 的 例子 。 本 节 介 绍 的 操作 类 型 可 能 读 起 来 有 些 
枯燥 ， 但 其 中 也 包括 了 本 书 其 他 例子 中 将 用 到 的 内 容 ， 所 以 要 好 好 了 解 这 些 内 容 ! 
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我 们 将 介绍 以 下 几 类 基本 的 数组 操作 。 
数组 的 属性 

确定 数组 的 大 小 、 形 状 、 存 储 大 小 、 数 据 类 型 。 
数组 的 索引 

获取 和 设置 数组 各 个 元 素 的 值 。 
数组 的 切 分 
在 大 的 数组 中 获取 或 设置 更 小 的 子 数组 。 
数组 的 变形 

改变 给 定数 组 的 形状 。 
数组 的 拼接 和 分 裂 

将 多 个 数组 合并 为 一 个 ， 以 及 将 一 个 数组 分 裂 成 多 个 。 


2.2.1 NumPy 数 组 的 属性 

首先 介绍 一 些 有 用 的 数组 属性 。 定 义 三 个 随机 的 数组 : 一 个 一 维 数 组 、 一 个 二 维 数 组 和 一 
个 三 维 数组 。 我 们 将 用 NumPy 的 随机 数 生 成 器 设置 一 组 种 子 值 ， 以 确保 每 次 程序 执行 时 
都 可 以 生成 同样 的 随机 数组 : 


In[1]: import numpy as np 


np.random.seed(0) # 设置 随机 数 种 子 

















x1 = np.random.randint(10，size=6) # 一 维 数 组 
x2 = np.random.randint(10，size=(3，4)) # 二 维 数 组 
x3 = np.random.randint(10，size=(3，4，5)) # 三 维 数组 


每 个 数组 有 nidm (数组 的 维度 )、shape (数组 每 个 维度 的 大 小 ) 和 size (数组 的 总 大 小 ) 属性 : 
In[2]: print("x3 ndim: ", x3.ndim) 


print("x3 shape:", x3.shape) 
print("x3 size: ", x3.size) 


x3 ndim: 3 
x3 shape: (3, 4, 5) 
x3 size: 60 
另外 一 个 有 用 的 属性 是 dtype， 它 是 数组 的 数据 类 型 (2.1 节 讨 论 过 ) : 
In[3]: print("dtype:", x3.dtype) 


dtype: int64 


其 他 的 属性 包括 表示 每 个 数组 元 素 字 市 大 小 的 itemsize， 以 及 表示 数组 总 字 节 大 小 的 属性 
nbytes : 

















In[4]: print("itemsize:", x3.itemsize, "bytes") 
print("nbytes:", x3.nbytes, "bytes") 


itemsize: 8 bytes 
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nbytes: 480 bytes 


一 般 来 说 ， 可 以 认为 nbytes 跟 itemsize 和 size 的 乘积 大 小 相等 。 


2.2.2 ”数组 索引 : 获取 单个 元 素 


如 果 你 熟悉 Python 的 标准 列表 索引 ， 那 么 你 对 NumPy 的 索引 方式 也 不 会 陌生 。 和 Python 




















列表 一 样 ， 在 一 维 数组 中 ， 你 也 可 以 通过 中 括号 指定 索引 获取 第 i 个 值 (从 0 开始 计数 ) : 





In[5]: x1 

Out[5]: array([5, 0, 3, 3, 7, 9]) 
In[6]: x1[0] 

out[6]: 5 

In[7]: x1[4] 


Out[7]: 7 














为 了 获取 数组 的 末尾 索引 ， 可 以 用 负 值 索引 : 


In[8]: x1i[-1] 
Out[8]: 9 
In[9]: x1i[-2] 


Out[9]: 7 








In[10]: x2 

Out[10]: array([[3, 5, 2, 4], 
[7, 6, 8, 8], 
[1, 6, 7, 7]]) 

In[11]: x2[0, 0] 

out[11]: 3 

In[12]: x2[2，0] 

out[12]: 1 

In[13]: x2[2，-1] 

out[13]: 7 

也 可 以 用 以 上 索引 方式 修改 元 素 值 : 


In[14]: x2[0, 0] = 12 
X2 


在 多 维 数 组 中 ， 可 以 用 逗号 分 隔 的 索引 元 组 获取 元 素 : 
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Out[14]: array([[12, 5, 2, 4]， 
[7, 6, 8, 8], 
[ 1, 6, 7, 7]]) 


请 注意 ， 和 Python 列表 不 同 ，NumPy 数组 是 固定 类 型 的 。 这 意味 着 当 你 试图 将 一 个 浮 点 
值 插入 一 个 整 型 数组 时 ， 浮 点 值 会 被 截 短 成 整 型 。 并 且 这 种 截 短 是 自动 完成 的 ， 不 会 给 你 
提示 或 警告 ， 所 以 需要 特别 注意 这 一 点 ! 


In[15]: xl1[90] = 3.14159 # 这 将 被 截 短 
x1 

















Out[15]: array([3, 0, 3, 3, 7, 9]) 


2.2.3 数组 切片 : 获取 子 数组 

正如 此 前 用 中 括号 获取 单个 数组 元 素 ， 我 们 也 可 以 用 切片 (slice) 符号 获取 子 数 组 ， 切 片 
符号 用 冒号 (:) 表示 。NumPy 切片 语法 和 Python 列表 的 标准 切片 语法 相同 。 为 了 获取 数 
组 x 的 一 个 切片 ， 可 以 用 以 下 方式 : 


x[start:stop:step] 
如 果 以 上 3 个 参数 都 未 指定 ， 那 么 它们 会 被 分 别 设置 默认 值 start=0、stop= 维度 的 大 小 
(size of dimension) 和 step=1。 我 们 将 详细 介绍 如 何在 一 维和 多 维 数组 中 获取 子 数组 。 
1. 一 维 子 数组 


In[16]: x = np.arange(10) 
X 




















out[16]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 
In[17]: x[:5] # 前 五 个 元 素 

Out[17]: array([6，1，2，3，4]) 

In[18]: x[5:] # 索引 五 之 后 的 元 素 

Out[18]: array([5, 6, 7, 8, 9]) 

In[19]: x[4:7] # 中 间 的 子 数组 

Out[19]: array([4, 5, 6]) 

In[20]: x[::2] # 每 隔 一 个 元 素 


Out[20]: array([0, 2, 4, 6, 8]) 





In[21]: x[1::2] # 每 隔 一 个 元 素 ， 从 索引 1 开始 





Out[21]: array([1, 3, 5, 7, 9]) 


你 可 能 会 在 步 长 值 为 负 时 感到 困惑 。 在 这 个 例子 中 ，start 参数 和 stop 参数 默认 是 被 交换 的 。 
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因此 这 是 一 种 非常 方便 的 逆序 数组 的 方式 : 


In[22]: x[::-1] # 所 有 元 素 ， 逆 序 的 


Out[22]: array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0]) 





In[23]: x[5::-2] # 从 索引 5 开始 每 隔 一 个 元 素 逆 序 


Out[23]: array([5, 3, 1]) 


2. 多 维 子 数组 


多 维 切片 也 采用 同样 的 方式 处 理 ， 用 冒号 分 隔 。 例 如 


最 后 


























In[24]: x2 


Out[24]: array([[12, 5, 2, 4]， 
[ 了 6， 8， 8]， 
[ 1, 6， Fs 7]]) 





In[25]: x2[:2，:3] # 两 行 ， 三 丈 


Out[25]: array([[12, 5, 2]， 
[ 7, 6, 8]]) 


In[26]: x2[:3，::2] # 所 有 行 ， 每 隔 一 列 
Out[26]: array([[12, 2]， 

[ 内 8]， 

[ 1，7]]) 
， 子 数组 维度 也 可 以 同时 被 逆序 : 


In[27]: x2[::-1，::-1] 


Out[27]: array([[ 7, 7, 6, 1], 
[8, 8, 6, 7], 
[ 4, 2, 5, 12]]) 


3. 获取 数组 的 行 和 列 
一 种 常见 的 需求 是 获取 数组 的 单行 和 单列 。 你 可 以 将 索引 与 切片 组 合 起 来 实现 这 个 功能 ， 


用 











个 冒号 (:) 表示 空 切片 ; 

In[28]: print(x2[:，0]) # x2 的 第 一 列 
[12 7 1] 

In[29]: print(x2[0，:]) # x2 的 第 一 行 


[12; 与 -这 : 潭 


在 获取 行 时 ， 出 于 语法 的 简介 考虑 ， 可 以 省 略 空 的 切片 : 


In[30]: print(x2[0]) # 等 于 x2[0，:] 


[12 5 2 4] 
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4. 非 副本 视图 的 子 数组 

关于 数组 切片 有 一 点 很 重要 也 非常 有 用 ， 那 就 是 数组 切片 返回 的 是 数组 数据 的 视图 ， 而 
不 是 数值 数据 的 副本 。 这 一 点 也 是 NumPy 数组 切片 和 Python 列表 切片 的 不 同 之 处 : 在 
Python 列表 中 ， 切 片 是 值 的 副本 。 例 如 此 前 示例 中 的 那个 二 维 数组 


In[31]: print(x2) 








从 中 抽取 一 个 2x 2 的 子 数组 : 


In[32]: x2_sub = x2[:2，:2] 
print(x2_sub) 


[[12 5] 
[7 6]] 


现在 如 果 修 改 这 个 子 数组 ， 将 会 看 到 原始 数组 也 被 修改 了 ! 结果 如 下 所 示 : 


In[33]: x2_sub[0, 0] = 99 
print(x2_sub) 





EE99.. 581 
[7 6]] 


In[34]: print(x2) 


[[9 ] 
[ ] 
[ ]] 

这 种 默认 的 处 理 方式 实际 上 非常 有 用 : 它 意 味 着 在 处 理 非常 大 的 数据 集 时 ， 可 以 获取 或 处 

这 些 数据 集 的 片段 ， 而 不 用 复制 底层 的 数据 缓存 。 

5. 创建 数组 的 副本 

尽管 数组 视图 有 一 些 非常 好 的 特性 ， 但 是 在 有 些 时 候 明 确 地 复制 数组 里 的 数据 或 子 数组 也 

是 非常 有 用 的 。 可 以 很 简单 地 通过 copy() 方法 实现 : 


In[35]: x2_sub_copy = x2[:2, :2].copy() 
print(x2_sub_copy) 



































Me 











[[99 5] 
[7 6]] 


如 果 修 改 这 个 子 数 组 ， 原 始 的 数组 不 会 被 改变 : 


In[36]: x2_sub_copy[0, 0] = 42 
print(x2_sub_copy) 


[[42 5] 
[7 6]] 
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In[37]: print(x2) 


2.2.4 数组 的 变形 


另 一 个 有 用 的 操作 类 型 是 数组 的 变形 。 数 组 变形 最 灵活 的 实现 方式 是 通过 reshape() 函数 





来 实现 。 例 如 ， 如 果 你 希望 将 数字 1~9 放 和 一 个 3x3 的 矩阵 中 ， 


In[38]: grid = np.arange(1, 10).reshape((3, 3)) 
print(grid) 


EL 计划 
[4 5 6] 
[7 8 9]] 





请 注意 ， 如 有 果 和 希望 该 方法 可 行 ， 那 么 原始 数组 的 大 小 必须 和 变形 


满足 这 个 条 件 ，reshape 方法 将 会 用 到 原始 数组 的 一 个 非 副 本 视 
连续 的 数据 缓存 的 情况 下 ， 返 回 非 副本 视图 往往 不 可 能 实现 。 





可 以 采用 如 下 方法 : 


后 数组 的 大 小 一 致 。 如 果 
图 。 但 实际 情况 是 ， 在 非 





另外 一 个 常见 的 变形 模式 是 将 一 个 一 维 数组 转变 为 二 维 的 行 或 列 的 矩阵。 你 也 可 以 通过 
reshape 方法 来 实现 ， 或 者 更 简单 地 在 一 个 切片 操作 中 利用 newaxis 关键 字 : 


In[39]: x = np.array([1, 2, 3]) 


# 通过 变形 获得 的 行 向 量 
x.reshape((1, 3)) 


Out[39]: array([[1, 2, 3]]) 


In[40]: # 通过 newaxis 获 得 的 行 向 量 
x[np.newaxis, :] 


Out[40]: array([[1, 2, 3]]) 


In[41]: # 通过 变形 获得 的 列 向 量 
x.reshape((3, 1)) 


Out[41]: array([[1], 


3? 


[3]]) 


In[42]: # 通过 newaxis 获 得 的 列 向 量 
x[:, np.newaxis] 


Out[42]: array([[1], 
[2]， 
[3]]) 


在 本 书 的 其 余部 分 中 ， 你 将 看 到 很 多 这 种 变形 。 
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2.2.5 ”数组 拼接 和 分 裂 
以 上 所 有 的 操作 都 是 针对 单一 数组 的 ， 但 有 时 也 需要 将 多 个 数组 合并 为 一 个 ， 或 将 一 个 数 
组 分 裂 成 多 个 。 接 下 来 将 详细 介绍 这 些 操作 。 
1. 数组 的 拼接 
拼接 或 连接 NumPy 中 的 两 个 数组 主要 由 np.concatenate、np.vstack 和 np.hstack 例 程 实 
现 。np.concatenate 将 数组 元 组 或 数组 列表 作为 第 一 个 参数 ， 如 下 所 示 : 

In[43]: x = np.array([1, 2, 3]) 


y = np.array([3, 2, 1]) 
np.concatenate([x, y]) 


Out[43]: array([1, 2, 3, 3, 2, 1]) 
你 也 可 以 一 次 性 拼接 两 个 以 上 数组 : 


In[44]: z = [99, 99, 99] 
print(np.concatenate([x, y, z])) 


[1 2 3 3 2 199 99 99] 


np.concatenate 也 可 以 用 于 二 维 数组 的 拼接 : 


In[45]: grid = np.array([[1, 2, 3], 
[4, 5, 6]]) 





In[46]: # 沿 着 第 一 个 轴 拼 接 


np.concatenate([grid, grid]) 





Out[46]: array([[1, 2, 3], 





In[47]: # 沿 着 第 二 个 轴 拼 接 (从 9 开始 索引 ) 


np.concatenate([grid, grid], axis=1) 








Out[47]: array([[1, 2, 3, 1, 2, 3], 
[4, 5, 6, 4, 5, 6]]) 


沿 着 固定 维度 处 理 数 组 时 ,使 用 np.vstack (垂直 栈 ) 和 np.hstack (水 平 栈 ) 函数 会 
更 简洁 : 
In[48]: x = np.array([1, 2, 3]) 


grid = np.array([[9, 8, 7], 
[6, 5, 4]]) 




















# 垂直 栈 数组 
np.vstack([x, grid]) 


Out[48]: array([[1, 2, 3], 
[9， 8， es 
[6, 5, 4]]) 





In[49]: # 水 平 栈 数 组 
y = np.array([[99]， 
[99]]) 
np.hstack([grid, y]) 


Out[49]: array([[ 9, 8, 7, 99], 
[6, 5, 4, 99]]) 
与 之 类 似 ，np.dstack 将 沿 着 第 三 个 维度 拼接 数组 。 
2. 数组 的 分 裂 
与 拼接 相反 的 过 程 是 分 裂 。 分 裂 可 以 通过 np.split、np.hsplit 和 np.vsplit 函数 来 实现 。 
可 以 向 以 上 函数 传递 一 个 索引 列表 作为 参数 ， 索 引 列 表 记 录 的 是 分 裂 点 位 置 : 


In[50]: x = [1, 2, 3, 99, 99, 3, 2, 1] 
x1, x2, x3 = np.split(x, [3, 5]) 
print(x1, x2, x3) 





[1 2 3] [99 99] [3 2 1] 


值得 注意 的 是 ，N 分 裂 点 会 得 到 N + 1 个子 数组 。 相 关 的 np.hsplit 和 np.vsplit 的 用 法 也 
类 似 : 


In[51]: grid = np.arange(16).reshape((4, 4)) 


grid 
Out[51]: array([[ 0, 1, 2, 3]， 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11], 
[i2313; "14; 1511]) 


In[52]: upper, lower = np.vsplit(grid, [2]) 
print(upper) 
print(Lower) 


[I@ 1 人 3] 
[4 567]] 
[[ 8 9 10 11] 
[12 13 14 15]] 


In[53]: left, right = np.hsplit(grid, [2]) 


print(Left) 
print(right) 

[[ 0 1] 

[4 5] 

[8 9] 

[12 13]] 

[[ 2 3] 

[6 7] 

[10 11] 

[14 15]] 





同样 ，np.dsplit 将 数组 沿 着 第 三 个 维度 分 裂 。 
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2.3 NumPy 数 组 的 计算 : 通用 函数 


到 目前 为 止 ， 我 们 讨论 了 NumPy 的 一 些 基 础 知识 。 在 接 下 来 的 几 小 节 中 ， 我 们 将 深入 了 
解 NumPy 在 Python 数据 科学 世界 中 如 此 重要 的 原因 。 明 确 点 说 ，NumPy 提供 了 一 个 简单 
灵活 的 接口 来 优化 数据 数组 的 计算 。 

NumPy 数组 的 计算 有 时 非常 快 ， 有 时 也 非常 慢 。 使 NumPy 变 快 的 关键 是 利用 向 量化 操作 ， 














通常 在 NumPy 的 通用 函数 (ufunc) 中 实现 。 本 节 将 介绍 NumPy 通用 函数 的 重要 性 一 一 它 
可 以 提高 数组 元 素 的 重复 计算 的 效率 ， 然 后， 将 会 介绍 很 多 NumPy 包 中 常用 且 有 用 的 数 
学 通用 函数 。 





2.3.1 缓慢 的 循环 
Python 的 默认 实现 (被 称 作 CPython) 处 理 起 某 些 操作 时 非常 慢 ， 一 部 分 原因 是 该 语言 
的 动态 性 和 解释 性 一 一 数据 类 型 灵活 的 特性 决定 了 序列 操作 不 能 像 C 语言 和 Fortran 语言 
一 样 被 编译 成 有 效 的 机 器 码 。 目 前 ， 有 一 些 项 目 试图 解决 Python 这 一 弱点 ， 比 较 知 名 的 
包括 : PyPy 项 目 (http://pypy.org/)， 一 个 实时 的 Python 编译 实现 ，Cython 项 目 (http:// 
cython.org)， 将 Python 代码 转换 成 可 编译 的 C 代码 ，Numba 项 目 (http:/numba.pydata. 
org/) ， 将 Python 代码 的 片段 转换 成 快速 的 LLVM 字 节 码 。 以 上 这 些 项 目 都 各 有 其 优势 和 
劣势 ， 但 是 比较 保守 地 说 ， 这 些 方法 中 还 没有 一 种 能 达到 或 超过 标准 CPython 引擎 的 受 欢 
迎 程度 。 
Python 的 相对 缓慢 通常 出 现在 很 多 小 操作 需要 不 断 重复 的 时 候 ， 比 如 对 数组 的 每 个 元 素 做 
循环 操作 时 。 假 设 有 一 个 数组 ， 我 们 想 计 算 每 个 元 素 的 倒数 ， 一 种 直接 的 解决 方法 是 : 
In[1]: import numpy as np 
np.random.seed(0) 











def compute_reciprocals(values): 
output = np.empty(len(values)) 
for i in range(Len(vaLues) ) : 
output[i] = 1.0 / vaLues[i] 
return output 


values = np.random.randint(1, 10, size=5) 
compute_reciprocals(values) 


Out[1]: array([ 0.16666667, 1. ， 0.25 ， 0.25 ， 0.125 ]) 
这 种 实现 方式 可 能 对 于 有 C 语言 或 Java 背景 的 人 来 说 非常 自然 ， 但 是 如 果 测 试 一 个 很 大 
量 的 输入 数据 运行 上 述 代码 的 时 间 ， 这 一 操作 将 非常 耗 时 ， 并 且 是 超出 意料 的 慢 ! 我 们 将 
用 IPython 的 %timeit 魔法 函数 (详情 请 参见 1.9 市 ) 来 测量 : 


In[2]: big array = np.random.randint(1, 100, size=1000000) 
%timeit compute_ reciprocals(big_array) 


1 loop, best of 3: 2.91 s per loop 











完成 百 万 次 上 述 操作 并 存储 结果 花 了 儿 秒 钟 的 时 间 ! 在 手机 都 以 Giga-FLOPS ( 即 每 秒 十 
亿 次 浮 点 运算 ) 为 单位 计算 处 理 速度 时 ， 上 面 的 处 理 结果 所 花费 的 时 间 确 实 是 不 合 时 宜 的 
慢 。 事 实 上 ， 这 里 的 处 理 瓶 颈 并 不 是 运算 本 身 ， 而 是 CPython 在 每 次 循环 时 必须 做 数据 类 
型 的 检查 和 函数 的 调度 。 每 次 进行 倒数 运算 时 ，Python 首先 检查 对 象 的 类 型 ， 并 且 动 态 查 
找 可 以 使 用 该 数据 类 型 的 正确 函数 。 如 果 我 们 在 编译 代码 时 进行 这 样 的 操作 ， 那 么 就 能 在 
代码 执行 之 前 知晓 类 型 的 声明 ， 结 果 的 计算 也 会 更 加 有 效率 。 


2.3.2 通用 函数 介绍 

NumPy 为 很 多 类 型 的 操作 提供 了 非常 方便 的 、 静 态 类 型 的 、 可 编译 程序 的 接口 ， 也 被 称 作 
向 量 操作 。 你 可 以 通过 简单 地 对 数组 执行 操作 来 实现 ， 这 里 对 数组 的 操作 将 会 被 用 于 数组 
中 的 每 一 个 元 素 。 这 种 向 量 方法 被 用 于 将 循环 推送 至 NumPy 之 下 的 编译 层 ， 这 样 会 取得 
更 快 的 执行 效率 。 
比较 以 下 两 个 结果 ; 


In[3]: print(compute_reciprocals(values)) 
print(1.0 / values) 

































































[ 0.16666667 1. 0.25 0.25 0.125 ] 
[ 0.16666667 1. 0.25 0.25 0.125 ] 


如 果 计 算 一 个 较 大 数组 的 运行 时 间 ， 可 以 看 到 它 的 完成 时 间 比 Python 循环 花费 的 时 间 
更 短 : 

In[4]: %timeit (1.0 / big_array) 

100 loops, best of 3: 4.6 ms per loop 
NumPy 中 的 向 量 操作 是 通过 通用 函数 实现 的 。 通 用 函数 的 主要 目的 是 对 NumPy 数组 中 的 
值 执行 更 快 的 重复 操作 。 它 非常 灵活 ， 前 面 我 们 看 过 了 标量 和 数组 的 运算 ,但 是 也 可 以 对 
两 个 数组 进行 运算 : 


In[5]: np.arange(5) / np.arange(1, 6) 

















Out[5]: array([ 0. ， 0.5 ， 0.66666667， 0.75 ， 0.8 人 
通用 国 数 并 不 仅 限 于 一 维 数组 的 运算 ， 它 们 也 可 以 进行 多 维 数组 的 运算 : 
In[6]: x = np.arange(9).reshape((3, 3)) 


.区 


Out[6]: array([[ 1, 2, 4]， 
[ 8, 16, 32], 
[ 64, 128, 256]]) 


过 通用 函数 用 向 量 的 方式 进行 计算 几乎 总 比 用 Python 循环 实现 的 计算 更 加 有 效 ， 尤 其 是 
数组 很 大 时 。 只 要 你 看 到 Python 脚本 中 有 这 样 的 循环 ， 就 应 该 考虑 能 否 用 向 量 方式 赫 换 
这 个 循环 。 








(CI 
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2.3.3 ”探索 NumPy 的 通用 函数 

通用 函数 有 两 种 存在 形式 ， 一 元 通用 函数 (unary ufunc) 对 单个 输入 操作 ， 二 元 通用 函数 
(binary ufunc) 对 两 个 输入 操作 。 我 们 将 在 以 下 的 介绍 中 看 到 这 两 种 类 型 的 例子 。 

1. 数组 的 运算 

Numpy 通用 函数 的 使 用 方式 非常 自然 ， 因 为 它 用 到 了 Python 原生 的 算术 运算 符 ， 标 准 的 
加 、 减 、 乘 、 除 都 可 以 使 用 ; 


In[7]: x = np.arange(4) 














print("x = XY) 
print("x + 5 =", x + 5) 
print("x -5 =", x - 5) 
print("x * 2 =", x * 2) 
print("x / 2 =", x / 2) 
print("x // 2 =", x // 2) # 地 板 除法 运算 

x = [0 12 3] 

x+5=[5678] 

x-5=[-5 -4 -3 -2] 

x*2=[0246] 

X 22 Os 055 :1 | 

x//2= [0011] 





还 有 逻辑 非 、** 表示 的 指数 运算 符 和 % 表示 的 模 运 算 符 的 一 元 通用 函数 : 


In[8]: print("-x 三 - my. :4X) 
printO Ye ** 2s NR 2 
print("x%2 =", x % 2) 

-x = [0 -1 -2 -3] 

x**2= [0149] 

x%2 = [0101] 


你 可 以 任意 将 这 些 算术 运算 符 组 合 使 用 。 当 然 ， 你 得 考虑 这 些 运 算 符 的 优先 级 : 
In[9]: -(0.5*x + 1) ** 2 
Out[9]: array([-1. , -2.25, -4. , -6.25]) 
所 有 这 些 算术 运算 符 都 是 NumPy 内 置 函 数 的 简单 封装 器 ， 例 如 + 运算 符 就 是 一 个 add 函 
数 的 封装 器 : 
In[10]: np.add(x, 2) 
Out[10]: array([2, 3, 4, 5]) 
表 2-2 列 出 了 所 有 NumPy 实现 的 算术 运算 符 。 
表 2-2: NumPy 实 现 的 算术 运算 符 
运算 符 。 对 应 的 通用 函数 ”描述 
+ np.add 加 法 运算 ( 即 1 + 1 = 2) 
np.subtract 减法 运算 ( 即 3 - 2 = 1) 
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运算 符 ”对 应 的 通用 函数 ”描述 








np negative 负数 运算 ( 即 -2) 
| np.multiply 乘法 运算 ( 即 2 * 3 = 6) 
/ np.divide 除法 运算 ( 即 3 / 2 = 1.5) 
// np.floor_divide ”地板 除 法 运算 (floor division， 即 3 // 2 = 1) 
* np.power 指数 运算 ( 即 2 ** 3 = 8) 
% np.mod 模 / 余 数 ( 即 9 % 4 = 1) 
另外 ，NumPy 中 还 有 布尔 / 位 运算 符 ， 这 些 运算 符 将 在 2.6 市 中 进一步 介绍 。 
2. 绝对 值 

















正如 NumPy 能 理解 Python 内 置 的 运算 操作 ，NumPy 也 可 以 理解 Python 内 置 的 绝对 值 
半数 : 


In[11]: x = np.array([-2, -1, 0, 1, 2]) 
abs(x) 


out[11]: array([2, 1, 9, 1, 2]) 
对 应 的 NumPy 通用 函数 是 np.absolute， 该 函数 也 可 以 用 别名 np.abs 来 访问 : 
In[12]: np.absolute(x) 
out[12]: array([2, 1, 0, 1, 2]) 
In[13]: np.abs(x) 
out[13]: array([2, 1, 9, 1, 2]) 
这 个 通用 函数 也 可 以 处 理 复 数 。 当 处 理 复数 时 ， 绝 对 值 返回 的 是 该 复数 的 幅度 : 


In[14]: x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j]) 
np.abs(x) 




















Out[14]: array([ 5., 5., 2., 1.]) 
3. 三 角 函 数 
NumPy 提供 了 大 量 好 用 的 通用 函数 ， 其 中 对 于 数据 科学 家 最 有 用 的 就 是 三 角 函 数 。 首 先 定 
一 个 角度 数组 : 


In[15]: theta = np.linspace(0, np.pi, 3) 
现在 可 以 对 这 些 值 进行 一 些 三 角 函 数 计算 : 


", theta) 
, Np.sin(theta)) 
", Np.cos(theta)) 
, Np.tan(theta)) 











In[16]: print("theta 
print("sin(theta) 
print("cos(theta) 
print("tan(theta) 


theta =: 0: 1.57079633 3.14159265] 
sin(theta) = [ 0.00000000e+00 1.00000000e+00 1.22464680e-16] 
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00000000e+00 “6.12323400e-17 -1.00000000e+00] 


cos(theta) = [ 1. 
) = [ 0.00000000e+00 1.63312394e+16 -1.22464680e-16] 


tan(theta 


这 些 值 是 在 机 器 精度 内 计算 的 ， 所 以 有 些 应 该 是 0 的 值 并 没有 精确 到 0 。 逆 三 角 函 数 同样 
可 以 使 用 : 


In[17]: x = [-1, 0, 1] 
print("x Ty 
print("arcsin(x) np.arcsin(x)) 
print("arccos(x) np.arccos(x)) 
print("arctan(x) np.arctan(x)) 

















x = [-1, 0, 1] 

arcsin(x) = [-1.57079633 090. 1.57079633] 
arccos(x) = [ 3.14159265 1.57079633 0. ] 

arctan(x) = [-0.78539816 ©0. 0.78539816] 


4. 指数 和 对 数 
NumPy 中 另 一 个 常用 的 运算 通用 函数 是 指数 运算 : 


In[18]: x = [1, 2, 3] 


print("x SX 
print("e^x =", np.exp(x)) 
print("2^x =", np.exp2(x)) 
print("3^x =", np.power(3, x)) 
x = [1, 2,3] 
e^X = [ 2.71828183 7.3890561 20.08553692] 
2*x =[2. 4. 8.] 
3^*x =[3 927] 





指数 运算 的 逆 运 算 ， 即 对 数 运算 也 是 可 用 的 。 最 基本 的 np. log 给 出 的 是 以 自然 数 为 底数 的 
对 数 。 如 果 你 希望 计算 以 2 为 底数 或 者 以 10 为 底数 的 对 数 ， 可 以 按照 如 下 示例 处 理 : 


In[19]: x = [1, 2, 4, 10] 
print("x 
print("Ln(x) 
print("Log2(x) 
print("Log10(x) 




















X) 
，np.Log(x)) 
，np.Log2(x)) 
，np.Log10(x)) 


x = [1, 2, 4, 10] 

n(x) = [ 0. 0.69314718 1.38629436 2.30258509] 
Log2(x) = [ 0. 和 pa 3.32192809] 
lo0g10(x) = [ 0. 0.30103 0.60205999 1. ] 


还 有 一 些 特 殊 的 版 本 ， 对 于 非常 小 的 输入 值 可 以 保持 较 好 的 精度 : 


In[20]: x = [0, 0.001, 0.01, 0.1] 
print("exp(x) - 1 =", np.expm1(x)) 
print("log(1 + x) =", np.log1ip(x)) 


exp(x) - 1 
log(1 + x) 


当 x 的 值 很 小 时 ， 以 上 函数 给 出 的 值 比 np.log 和 np.exp 的 计算 更 精确 。 


0.0010005 0.01005017 0.10517092] 
0.0009995 0.00995033 0.09531018] 


[ 6. 
[ 0. 
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5. 专用 的 通用 函数 


除了 以 上 介绍 到 的 ，NumPy 还 提供 
较 运算 符 、 弧 度 转化 为 角度 的 运算 、 取 整 和 求 


示 很 多 有 趣 的 功能 。 





了 很 多 通用 函数 ， 包 括 双 曲 三 角 函 数 、 比 特 位 运算 、 比 
余 运 算 ， 等 等 。 浏 览 NumPy 的 文档 将 会 揭 





上 


本 5 


还 有 一 个 更 加 专用 ， 也 更 加 临 鹰 的 通用 函数 优异 来 源 是 子 模块 scipy.speciat。 如 果 你 希 


望 对 你 的 数据 进行 一 些 更 上 次 的 数学 计算 ，scipy.speciat 可 和 角 


这 些 函 数 能 列 一 个 长 长 的 列表 ， 下 


In[21]: from scipy import spe 


In[22]: # Gamma 函 数 ( 广 闵 阶 乘 ， 


x = [1, 5, 10] 
print("gamma(x) 
print("Ln|gamma(x)| 
print("beta(x, 2) 


gamma(x) 00000000e 
ln|lgamma(x)| 


beta(x, 2) 


[ 1 
[ 0 
[ 0.5 


In[23]: # 误差 国 数 〈 高 斯 积分 ) 





包含 了 你 需要 的 计算 函数 。 
而 的 代码 片段 展示 了 一 些 可 能 在 统计 学 中 用 到 的 函数 : 


cial 














generalized factorials) 和 相关 函数 


", special.gamma(x)) 
", special.gammaln(x)) 
", special.beta(x, 2)) 


+00 2.40000000e+01 3.62880000e+05] 
3.17805383 12.80182748] 
0.03333333 0.00909091] 


# 它 的 实现 和 它 的 逆 实 现 


x = np.array([0, 0.3, 
print("erf(x) =", sp 
print("erfc(x) =", sp 
print("erfinv(x) ="， 
erf(x) = [ 0. 0.328 
erfc(x) = [ 1. 0.671 
erfinv(x) = [ 0. 0.2 


0.7, 1.0]) 
ecial.erf(x)) 
ecial.erfc(x)) 
special.erfinv(x)) 


62676 0.67780119 0.84270079] 
37324 0.32219881 0.15729921] 
7246271 0.73286908 inf] 


NumPy 和 scipy.special 中 提供 了 大 量 的 通用 函数 ， 这 些 包 的 文档 在 网 上 就 可 以 查 到 ， 搜 


索 “gamma function python” 即 可 。 





2.3.4 高 级 的 通用 函数 特性 


月 
1 


函数 的 特殊 性 质 。 
. 指定 输出 


者 





很 多 NumPy 用 户 在 没有 完全 了 解 通 


通 


用 函数 的 特性 时 就 开始 使 用 它们 ， 这 里 将 介绍 一 些 


在 进行 大 量 运算 时 ， 有 时 候 指 定 一 个 用 于 存放 运算 结果 的 数组 是 非常 有 用 的 。 不 同 于 创建 
临时 数组 ， 你 可 以 用 这 个 特性 将 计算 结果 直接 写 人 于 
可 以 通过 out 参数 来 指定 计算 结果 的 存放 位 置 : 








I 你 期 望 的 存储 位 置 。 所 有 的 通用 函数 


In[24]: x = np.arange(5) 
y = np.empty(5) 
np.multiply(x, 10, out=y) 
print(y) 

[ 0. 10. 20. 30. 40.] 
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这 个 特性 也 可 以 被 用 作 数 组 视图 ， 例 如 可 以 将 计算 结果 写 人 指定 数组 的 每 隔 一 个 元 素 的 
位 置 : 
In[25]: y = np.zeros(10) 
np.power(2, x, out=y[::2]) 
print(y) 





[ 1. 090. 2. 0. 4. 0. 8. 0. 16. 0.] 


如 果 这 里 写 的 是 y[::2] = 2 ** x， 那 么 结果 将 是 创建 一 个 临时 数组 ， 该 数组 存放 的 是 
2 ** x 的 结果 ， 并 且 接 下 来 会 将 这 些 值 复制 到 y 数组 中 。 ee 
算 量 来 说 ， 这 两 种 方式 的 差别 并 不 大 。 但 是 对 于 较 大 的 数组 ， 通 过 慎重 使 用 out 参数 
将 能 够 有 效 节 约 内 存 。 
2. 聚合 
二 元 通用 函数 有 些 非常 有 趣 的 聚合 功能 ， 这 些 聚 合 可 以 直接 在 对 象 上 计算 。 例 如 ， 如 果 我 
们 希望 用 一 个 特定 的 运算 reduce 一 个 数组 ， 那 么 可 以 用 任何 通用 函数 的 reduce 方法 。 

个 reduce 方法 会 对 给 定 的 元 素 和 操作 重复 执行 ， 直 至 得 到 单个 的 结果 。 


例如 ， 对 add 通用 函数 调用 reduce 方法 会 返回 数组 中 所 有 元 素 的 和 : 


In[26]: x = np.arange(1, 6) 
np.add.reduce(x) 










































































Out[26]: 1 
同样 ， 对 multiply 通用 函数 调用 reduce 方法 会 返回 数组 中 所 有 元 素 的 乘积 


In[27]: np.multiply.reduce(x) 








Out[27]: 120 
如 果 需 要 存储 每 次 计算 的 中 间 结 果 ， 可 以 使 用 accumulate: 

In[28]: np.add.accumulate(x) 

Out[28]: array([ 1, 3, 6, 10, 15]) 

In[29]: np.multiply.accumulate(x) 

Out[29]: array([ 1, 2, 6, 24, 120]) 
请 注意 ， 在 一 些 特殊 情况 中 ，NumPy di 数 (np.sum、np.prod、 np. a 
np.cumprod ) ， 它 们 也 可 以 实现 以 上 reduce 的 功能 ， 这 些 函 数 将 在 2.4 节 中 具体 介 
3. 外 积 
最 后 ， 任何 通用 函数 都 可 以 用 outer 方法 获得 两 个 不 同 输入 数组 所 有 元 素 对 的 函数 运算 结 
果 。 这 意味 着 你 可 以 用 一 行 代码 实现 一 个 乘法 表 : 


In[30]: x = np.arange(1, 6) 
np.multiply.outer(x, x) 








Out[30]: array([[ 1, 2, 3, 4, 5], 
[ 2, 4, 6, 8, 10], 





[ 3, 6, 9, 12, 15], 

[ 4, 8, 12, 16, 20], 

[ 5, 10, 15, 20, 25]]) 
2.7 节 将 介绍 非常 有 用 的 ufunc.at 和 ufunc.reduceat 方法 。 
通用 函数 另外 一 个 非常 有 用 的 特性 是 它 能 操作 不 同 大 小 和 形状 的 数组 ， 一 组 这 样 的 操作 被 
称 为 广播 (broadcasting)。 这 个 主题 非常 重要 ， 我 们 将 用 一 整 节 的 内 容 介 绍 它 (详情 请 参 
见 2.5 节 )。 


2.3.5 通用 函数 : 更 多 的 信息 


有 关 通 用 函数 的 更 多 信息 (包括 可 用 的 通用 函数 的 完整 列表 ) 可 以 在 NumPy (http://www. 
numpy.org) 和 SciPy (http://www.scipy.org) 文档 的 网 站 找到 。 


前 面 的 章节 介绍 过 ， 可 直接 在 了 Python 中 通过 导入 相应 的 包 ， 然 后 利用 IPython 的 Tab 键 补 
全 和 帮助 (?) 功能 获取 信息 ， 详 情 请 参见 1.2 节 。 


2.4 聚合 : 最 小 值 、 最 大 值 和 其 他 值 


当 你 面 对 大 量 的 数据 时 ， 第 一 个 步骤 通常 都 是 计算 相关 数据 的 概括 统计 值 。 最 常用 的 概括 统 
计 值 可 能 是 均值 和 标准 差 ， 这 两 个 值 能 让 你 分 别 概括 出 数据 集中 的 “经 典 ” 值 ， 但 是 其 他 一 
些 形式 的 聚合 也 是 非常 有 用 的 〈 如 求 和 、 乘 积 、 中 位 数 、 最 小 值 和 最 大 值 、 分 位 数 ， 等 等 ) 。 


NumPy 有 非常 快速 的 内 置 聚合 函数 可 用 于 数组 ， 我 们 将 介绍 其 中 的 一 些 。 


2.4.1 数组 值 求 和 


先 来 看 一 个 小 例子 ， 设 想 计算 一 个 数组 中 所 有 元 素 的 和 。Python 本 身 可 用 内 置 的 sum 函数 
来 实现 : 


In[1]: import numpy as np 









































In[2]: L = np.random.random(100) 
sum(L) 


Out[2]: 55.61209116604941 


它 的 语法 和 NumPy 的 sun 函数 非常 相似 ， 并 且 在 这 个 简单 的 例子 中 的 结果 也 是 一 样 的 : 


In[3]: np.sum(L) 








Out[3]: 55.612091166049424 


但 是 ， 因 为 NumPy 的 sum 国 数 在 编译 码 中 执行 操作 ， 所 以 NumPy 的 操作 计算 得 更 
快 一 些 : 
In[4]: big array = np.random.rand(1000000) 


%timeit sum(big_array) 
%timeit np.sum(big_array) 
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10 Loops，best of 3: 104 ms per Loop 
1000 Loops，best of 3: 442 hs per Loop 


但 是 需要 注意 ，sum 函数 和 np.sun 函数 并 不 等 同 ， 这 有 时 会 导致 混淆 。 尤 其 是 它们 各 自 
的 可 选 参数 都 有 不 同 的 含义 ，np.sunm 函数 是 知道 数组 的 维度 的 ， 这 一 点 将 在 接 下 来 的 部 
分 讲解 。 


2.4.2 ”最 小 值 和 最 大 值 


同样 ，Python 也 有 内 置 的 mn 函数 和 max 函数 ,分别 被 用 于 获取 给 定数 组 的 最 小 值 和 最 
大 值 : 


In[5]: min(big_array), max(big_array) 








Out[5]: (1.1717128136634614e-06, 0.9999976784968716) 
NumPy 对 应 的 函数 也 有 类 似 的 语法 ， 并 且 也 执行 得 更 快 : 


In[6]: np.min(big_array), np.max(big_array) 





Out[6]: (1.1717128136634614e-06, 0.9999976784968716) 


In[7]: %timeit min(big_array) 
%timeit np.min(big_array) 


10 loops, best of 3: 82.3 ms per Loop 
1000 loops, best of 3: 497 hs per Loop 


对 于 min、max、sun 和 其 他 NumPy 聚合 ， 一 种 更 简洁 的 语法 形式 是 数组 对 象 直接 调用 这 些 
方法 : 


In[8]: print(big array.min(), big array.max(), big_array.sum()) 





1.17171281366e-06 0.999997678497 499911.628197 
当 你 操作 NumPy 数组 时 ， 确 保 你 执行 的 是 NumPy 版 本 的 聚合 。 
1. 多 维度 聚合 
一 种 常用 的 聚合 操作 是 沿 着 一 行 或 一 列 聚 合 。 例 如 ， 假 设 你 有 一 些 数据 存储 在 二 维 数组 中 ， 


In[9]: M = np.random.random((3, 4)) 
print(M) 





[ 8967576 0.03783739 0.75952519 0.06682827] 


[ 0. 
[ 0.8354065 0.99196818 0.19544769 0.43447084] 
[ 0.66859307 0.15038721 0.37911423 0.6687194]] 


默认 情况 下 ， 每 一 个 NumPy 聚合 函数 将 会 返回 对 整个 数组 的 聚合 结果 : 
In[10]: M.sum() 


Out[10]: 6.0850555667307118 








聚合 函数 还 有 一 个 参数 ， 用 于 指定 沿 着 哪个 轴 的 方向 进行 聚合 。 例 如 ， 可 以 通过 


axis=0 找到 每 一 列 的 最 小 值 : 
In[11]: M.min(axis=0) 
0.19544769 ， 


Out[11]: array([ 0.66859307, 0.06682827]) 


这 个 函数 返回 四 个 值 ， 对 应 四 列 数字 的 计算 值 。 
同样 ， 也 可 以 找到 每 一 行 的 最 大 值 : 


In[12]: M.max(axis=1) 


0.03783739 ， 


Out[12]: array([ 0.8967576 ， 0.99196818， 0.6687194] ) 


巴 
日 


定 


其 他 语言 的 用 户 会 对 轴 的 指定 方式 比较 困惑 。axis 关键 字 指 定 的 是 数组 将 会 被 折 受 的 维 
度 ， 而 不 是 将 要 返回 的 维度 。 因 此 指定 axis=0 意味 着 第 一 个 轴 将 要 被 折 又 一 一 对 于 二 维 数 





组 ， 这 意味 着 每 一 列 的 值 都 将 被 聚合 。 


2. 其 他 聚合 函数 
NumPy 提供 了 很 多 其 他 聚合 函数 ， 


晶 是 这 里 不 会 详细 地 介绍 它们 。 另 外 ， 大 多 数 的 聚合 都 


有 对 NaN 值 的 安全 处 理 策略 (NaN-safe)， 


即 计算 时 忽略 所 有 的 缺失 值 ， 这 些 缺 失 值 即 特殊 











的 IEEE 浮 点 型 NaN 值 〈 关 于 缺失 值 更 全 面 的 介绍 请 参见 3.5 节 )。 有 些 NaN-safe 的 函数 直 
到 NumPy 1.8 版 本 才 加 进去 ， 所 以 更 早 版 本 的 NumPy 并 不 支持 此 功能 。 


表 2-3 提供 了 一 个 NumPy 中 可 用 的 聚合 函数 的 清单 。 
表 2-3: NumPy 中 可 用 的 聚合 函数 





















































函数 名 称 NaN 安 全 版 本 描述 

np.sum np.nansum 计算 元 素 的 和 

np.prod np.nanprod 计算 元 素 的 积 

np .mean np.nanmean 计算 元 素 的 平均 值 

np.std np.nanstd 计算 元 素 的 标准 差 

np.var np.nanvar 计算 元 素 的 方差 

np .min np.nanmin 找 出 最 小 值 

np .max np .nanmax 找 出 最 大 值 

np.argmin np.nanargmin 找 出 最 小 值 的 索引 

np .argmax np.nanargmax 找 出 最 大 值 的 索引 
np.median np.nanmedian 计算 元 素 的 中 位 数 
np.percentile np.nanpercentile 计算 基于 元 素 排序 的 统计 值 
np.any N/A 验证 任何 一 个 元 素 是 否 为 真 
np.all N/A 验证 所 有 元 素 是 否 为 真 




















本 书 的 其 余部 分 将 展示 这 些 聚 合 函数 的 使 用 方法 。 





NumpPy 入 门 | 53 


2.4.3 示例 : 美国 总 统 的 身高 是 多 少 


用 NumPy 的 聚合 功能 来 概括 一 组 数据 非常 有 用 。 这 里 举 一 个 简单 的 例子 一 一 计算 所 有 美 
国 总 统 的 身高 。 这 个 数据 在 president_heights.csv 文件 中 ， 是 一 个 简单 的 用 逗号 分 隔 的 标签 
和 值 的 列表 : 


In[13]: !head -4 data/president_heights.csv 


























order ,name,height(cm) 
1,George Washington,189 
2,John Adams ,170 
3,Thomas Jefferson,189 


我 们 将 用 Pandas 包 来 读 文 件 并 抽取 身高 信息 。( 请 注意 ， 身 高 的 计量 单位 是 厘米 。) 第 3 章 
将 更 全 面 地 介绍 Pandas: 


In[14]: import pandas as pd 
data = pd.read_csv('data/president_heights.csv') 
heights = np.array(data[ 'height(cm)']) 
print(heights) 

















[189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173 
174 183 183 168 170 178 182 180 183 178 182 188 175 179 183 193 182 183 
177 185 188 188 182 185] 


有 了 这 个 数据 数组 后 ， 就 可 以 计算 很 多 概括 统计 值 了 : 


In[15]: print("Mean height: ", heights.mean()) 
print("Standard deviation:", heights.std()) 
print("Minimum height: ", heights.min()) 
print("Maximum height: ", heights.max()) 

Mean height: 179.738095238 

Standard deviation: 6.93184344275 

Minimum height: 163 

Maximum height: 193 





请 注意 ， 在 这 个 例子 中 ， 聚 合 操作 将 整个 数组 缩减 到 单个 概括 值 ， 这 个 概括 值 给 出 了 这 些 
数值 的 分 布 信息 。 我 们 也 可 以 计算 分 位 数 : 





























In[16]: print("25th percentile: ", np.percentile(heights, 25)) 
print("Median: ", Nnp.median(heights)) 
print("75th percentile: ", Nnp.percentile(heights, 75)) 

25th percentile: 174.25 

Median: 182.0 

75th percentile: 183.0 





可 以 看 到 ， 美国 总 统 的 身高 中 位 数 是 182cm， 或 者 说 不 到 6 英尺 。 
当然 ， 有 些 时 候 将 数据 可 视 化 更 有 用 。 这 时 可 以 先进 行 一 个 快速 的 可 视 化 ， 通 过 Matplotlib 
(第 4 章 将 详细 讨论 该 工具 ) 用 以 下 代码 创建 图 2-3: 


In[17]: %matplotlib inline 
import matplotlib.pyplot as plt 








import seaborn; seaborn.set() # 设置 绘图 风格 


In[18]: plt.hist(heights) 
plt.title('Height Distribution of US Presidents') 
plt.xlabel('height (cm)') 
plt.ylabel('number'); 








美国 总 统 身高 分 布 











number 





160 165 170 175 180 185 190 195 
height (cm) 








图 2-3: 总 统 身高 的 直方 图 
这 些 聚合 是 探索 数据 分 析 的 一 些 最 基本 片段 ， 本 书后 续 的 章节 将 进行 更 深入 的 介绍 。 


2.5 ”数组 的 计算 : 广播 


我 们 在 前 一 节 中 介绍 了 NumPy 如 何 通过 通用 国 数 的 向 量化 操作 来 减少 缓慢 的 Python 循环 ， 
另外 一 种 向 量化 操作 的 方法 是 利用 NumPy 的 广播 功能 。 广 播 可 以 简单 理解 为 用 于 不 同 大 
小 数组 的 二 进 制 通用 函数 (加 、 减 、 乘 等 ) 的 一 组 规则 。 


2.5.1 广播 的 介绍 
前 面 曾 提 到 ， 对 于 同样 大 小 的 数组 ， 二 进 制 操作 是 对 相应 元 素 逐 个 计算 : 


In[1]: import numpy as np 








In[2]: a = np.array([0, 1, 2]) 


np.array([5, 5, 5]) 


by | We || 


a 
Out[2]: array([5, 6, 7]) 


广播 允许 这 些 二 进 制 操作 可 以 用 于 不 同 大 小 的 数组 。 例 如 ， 可 以 简单 地 将 一 个 标量 (可 以 
认为 是 一 个 零 维 的 数组 ) 和 一 个 数组 相 加 : 
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In[3]: a+5 

Out[3]: array([5, 6, 7]) 
我 们 可 以 认为 这 个 操作 是 将 数值 5 扩展 或 重复 至 数组 [5，5，5]， 然 后 执行 加 法 。NumPy 
广播 功能 的 好 处 是 ， 这 种 对 值 的 重复 实际 上 并 没有 发 生 ， 但 是 这 是 一 种 很 好 用 的 理解 广播 
的 模型 。 
我 们 同样 也 可 以 将 这 个 原理 扩展 到 更 高 维度 的 数组 。 观 察 以 下 将 一 个 一 维 数组 和 一 个 二 维 
数组 相 加 的 结果 : 


In[4]: M = np.ones((3, 3)) 
M 





















































Out[4]: array([[ 1. 
We 
Es 


In[5]: M+ a 


Out[5]: array([[ 1., 2., 3.], 
El. 2 B01] 
bs, 22 35] 
这 里 这 个 一 维 数组 就 被 扩展 或 者 广播 了 。 它 沿 着 第 二 个 维度 扩展 ， 扩 展 到 匹配 M 数组 
的 形状 。 
以 上 的 这 些 例子 理解 起 来 都 相对 容易 ， 更 复杂 的 情况 会 涉及 对 两 个 数组 的 同时 广播 ， 例 如 
以 下 示例 : 


In[6]: a = np.arange(3) 
b 


np.arange(3)[:, np.newaxis] 


print(a) 
print(b) 


[0 1 2] 
[[9] 
[1] 
[2]] 


In[7]: a + b 


Out[7]: array([[0，1，2]， 
[3 2531; 
[2, 3, 4]]) 
正如 此 前 将 一 个 值 扩展 或 广播 以 匹配 另外 一 个 数组 的 形状 ， 这 里 将 和 b 都 进行 了 扩展 来 
匹配 一 个 公共 的 形状 ， 最 终 的 结果 是 一 个 二 维 数组 。 以 上 这 些 例子 的 几何 可 视 化 如 图 2-4 
所 示 。， 


























注 1: 这 幅 图 像 的 源码 可 以 在 GitHub 在 线 附 录 中 找到 ,对 astroML 文档 (http://www.astroml.org/book_figures/ 
appendix/fig_broadcast_visual.html) 的 源 代码 进行 了 调整 ， 已 获得 使 用 许可 。 

















56 | 第 2 章 





np. arange(3)+5 


a AR BE AAA 
ey . Es/ - um 


np. ones((3, 3))+np.arange(3) 











图 2-4: NumPy 广播 的 可 视 化 


浅 色 的 盒子 表示 广播 的 值 。 同 样 需要 注意 的 是 ， 这 个 额外 的 内 存 并 没有 在 实际 操作 中 进行 
分 配 ， 但 是 这 样 的 想象 方式 更 方便 我 们 从 概念 上 理解 。 


2.5.2 广播 的 规则 

NumPy 的 广播 遵循 一 组 严格 的 规则 ， 设 定 这 组 规则 是 为 了 决定 两 个 数组 间 的 操作 。 

。 规则 1: 如 果 两 个 数组 的 维度 数 不 相 同 ， 那 么 小 维度 数组 的 形状 将 会 在 最 左边 补 1。 

。 规则 2: 如 果 两 个 数组 的 形状 在 任何 一 个 维度 上 都 不 匹配 ， 那 么 数组 的 形状 会 治 着 维度 
为 1 的 维度 扩展 以 匹配 另外 一 个 数组 的 形状 。 

。 规则 3: 如 有 果 两 个 数组 的 形状 在 任何 一 个 维度 上 都 不 匹配 并 且 没 有 任何 一 个 维度 等 于 1， 
那么 会 引发 异常 。 

为 了 更 清楚 地 理解 这 些 规则 ， 来 看 几 个 具体 示例 。 

1. 广播 示例 1 

将 一 个 二 维 数组 与 一 个 一 维 数组 相 加 : 


In[8]: M = np.ones((2, 3)) 
a = np.arange(3) 


来 看 这 两 个 数组 的 加 法 操作 。 两 个 数组 的 形状 如 下 : 


M.shape = (2，3) 
a.shape = (3,) 


可 以 看 到 ， 根 据 规则 1， 数 组 a 的 维度 数 更 小 ， 所 以 在 其 左边 补 1: 
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M.shape -> (2，3) 
a.shape -> (1, 3) 


根据 规则 2， 第 一 个 维度 不 匹配 ， 因 此 扩展 这 个 维度 以 匹配 数组 : 


M.shape -> (2，3) 
a.shape -> (2, 3) 


现在 两 个 数组 的 形状 匹配 了 ， 可 以 看 到 它们 的 最 终 形状 都 为 (2，3): 


In[9]: M+a 





Out[9]: array([[ 1., 2., 3.], 
Eas 25 31) 


2. 广播 示例 2 
来 看 两 个 数组 均 需 要 广播 的 示例 : 


In[10]: np.arange(3).reshape((3, 1)) 


np.arange(3) 


-了 一 
上 : 径 
同样 ， 首 先 写 出 两 个 数组 的 形状 : 


a.shape = (3, 1) 
b.shape = (3,) 


规则 1 告诉 我 们 ， 需 要 用 1 将 b 的 形状 补 全 : 


a.shape -> (3, 1) 
b.shape -> (1, 3) 


规则 2 告诉 我 们 ， 需 要 更 新 这 两 个 数组 的 维度 来 相互 匹配 : 


a.shape -> (3, 3) 
b.shape -> (3, 3) 


因为 结果 匹配 ， 所 以 这 两 个 形状 是 兼容 的 ， 可 以 看 到 以 下 结果 : 


In[11]: a + b 








Out[11]: array([[0, 1, 2]， 
| 
[2, 3, 4]]) 
3. 广播 示例 3 
现在 来 看 一 个 两 个 数组 不 兼容 的 示例 : 
In[12]: M 
a 
和 第 一 个 示例 相 比 ， 这 里 有 个 微小 的 不 同 之 处 : 矩阵 M 是 转 置 的 。 那 么 这 将 如 何 影 响 计算 
呢 ? 两 个 数组 的 形状 如 下 ， 


(3, 2) 
(3,) 


np.ones((3, 2)) 
np.arange(3) 


M.shape 
a.shape 





同样 ， 规 则 1 告诉 我 们 ，a 数组 的 形状 必须 用 1 进行 补 全 : 


M.shape -> (3, 2) 
a.shape -> (1, 3) 


根据 规则 2，a 数组 的 第 一 个 维度 进行 扩展 以 匹配 M 的 维度 : 


M.shape -> (3, 2) 
a.shape -> (3, 3) 


现在 需要 用 到 规则 3 一 一 最 终 的 形状 还 是 不 匹配 ， 因 此 这 两 个 数组 是 不 兼容 的 。 当 我 们 执 
行 运算 时 会 看 到 以 下 结果 : 


In[13]: M + a 





ValueError Traceback (most recent call last) 


<ipython-input-13-9e1l6e9f98da6> in <module>() 
-->1M+a 


ValueError: operands could not be broadcast together with shapes (3,2) (3,) 


请 注意 ， 这 里 可 能 发 生 的 混淆 在于: 你 可 能 想 通过 在 a 数组 的 右边 补 1， 而 不 是 左边 补 1， 
让 a 和 MM 的 维度 变 得 兼容 。 但 是 这 不 被 广播 的 规则 所 允许 。 这 种 灵活 性 在 有 些 情景 中 可 能 
会 有 用 ， 但 是 它 可 能 会 导致 结果 模糊 。 如 果 你 希望 实现 右边 补 全 ， 可 以 通过 变形 数组 来 实 
岗 (将 会 用 到 np.newaxis 关键 字 ， 详 情 请 参见 2.2 节 ) : 


In[14]: a[:, np.newaxis].shape 





Out[14]: (3, 1) 

In[15]: M + a[:, np.newaxis] 
Out[15]: array([ ， 
.]]) 

另外 也 需要 注意 ， 这 里 仅 用 到 了 + 运算 符 ， 而 这 些 广播 规则 对 于 任意 二 进 制 通用 函数 都 是 


适用 的 。 例 如 这 里 的 Logaddexp(a，b) 函数 ， 比 起 简单 的 方法 ,该 函数 计算 Log(exp(a) + 
exp(b)) 更 准确 : 


In[16]: np.logaddexp(M, a[:, np.newaxis]) 





Out[16]: array([[ 1.31326169, 1.31326169] ， 
[ 1.69314718， 1.69314718] ， 
[ 2.31326169， 2.31326169]]) 


关于 可 用 的 通用 函数 的 更 多 信息 ， 请 参见 2.3 证 。 
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2.5.3 ”广播 的 实际 应 用 
广播 操作 是 本 书 中 很 多 例子 的 核心 ， 我 们 将 通过 几 个 简单 的 示例 来 展示 广播 功能 的 作用 。 
1. 数组 的 归 一 化 
在 前 面 的 一 节 中 ， 我 们 看 到 通用 函数 让 NumPy 用 户 免 于 写 很 慢 的 Python 循环 。 广 播 进 
一 步 扩展 了 这 个 功能 ， 一 个 第 见 的 例子 就 是 数组 数据 的 归 一 化 。 假 设 你 有 一 个 有 10 个 观 
察 值 的 数组 ， 每 个 观察 值 包含 3 个 数值 。 按 照 惯例 (详情 请 参见 5.2 节 )， 我 们 将 用 一 个 
10 x3 的 数组 存放 该 数据 : 

In[17]: X = np.random.random((10, 3)) 
我 们 可 以 计算 每 个 特征 的 均值 ， 计 算 方 法 是 利用 mean 函数 沿 着 第 一 个 维度 聚合 : 


In[18]: Xmean = X.mean(0) 
Xmean 























Out[18]: array([ 0.53514715, 0.66567217, 0.44385899]) 

现在 通过 从 XxX 数组 的 元 素 中 减 去 这 个 均值 实现 归 一 化 (该 操作 是 一 个 广播 操作 ) : 
In[19]: X_centered = X - Xmean 

为 了 进一步 核对 我 们 的 处 理 是 否 正 确 ， 可 以 查看 归 一 化 的 数组 的 均值 是 否 接近 0: 


In[20]: X_centered.mean(0) 





Out[20]: array([ 2.22044605e-17, -7.77156117e-17， -1.66533454e-17]) 
在 机 器 精度 范围 内 ， 该 均值 为 0。 
2. 画 一 个 二 维 函 数 
广播 另外 一 个 非常 有 用 的 地 方 在 于 ， 它 能 基于 二 维 函 数 显示 图 像 。 我 们 希望 定义 一 个 函数 
z=f(x,y)， 可 以 用 广播 沿 着 数值 区 间 计 算 该 函数 : 


In[21]: # x 和 y 表 示 9~5 区 间 56 个 步 长 的 序列 
x = np.linspace(0, 5, 50) 
y = np.linspace(0, 5, 50)[:, np.newaxis] 








z = Np.sin(x) ** 10 + Np.cos(10 + y * x) * np.cos(x) 
我 们 将 用 Matplotlib 来 画 出 这 个 二 维 数组 (这些 工 具 将 在 4.6 节 中 详细 介绍 ) : 


In[22]: %matplotlib inline 
import matplotlib.pyplot as plt 





In[23]: plt.imshow(z, origin='lower', extent=[0, 5, 0, 5], 


Ie 


plt.colorbar(); 


结果 如 图 2-5 所 示 ， 这 是 一 个 引 人 注 目的 二 维 国 数 可 视 化 。 























图 2-5: 一 个 二 维 数值 的 可 视 化 


2.6 比较 、 掩 码 和 布尔 逻辑 


这 一 节 将 会 介绍 如 何 用 布尔 扼 码 来 查看 和 操作 NumPy 数组 中 的 值 。 当 你 想 基于 某 些 准则 
来 抽取 、 修 改 、 计 数 或 对 一 个 数组 中 的 值 进行 其 他 操作 时 ， 掩 码 就 可 以 派 上 用 场 了 。 例 如 
你 可 能 希望 统计 数组 中 有 多 少 值 大 于 某 一 个 给 定 值 ， 或 者 删除 所 有 超出 某 些 门限 值 的 异常 
点 。 在 NumPy 中 ， 布尔 掩 码 通常 是 完成 这 类 任务 的 最 高 效 方式 。 


2.6.1 示例 : 统计 下 雨天 数 
假设 你 有 一 系列 表示 某 城市 一 年 内 日 降水 量 的 数据 ， 这 里 将 用 Pandas (将 在 第 3 章 详细 介 
绍 ) 加 载 2014 年 西雅图 市 的 日 降水 统计 数据 : 


In[1]: import numpy as np 
import pandas as pd 




















# 利用 Pandas 抽 取 降 雨量 ， 放 入 一 个 NumPy 数 组 

rainfall = pd.read_csv( 'data/SeattLe2014.csv' )[ "PRCP' ] .vaLues 
inches = rainfall / 254 # 1/10mm -> inches 

inches. shape 





Out[1]: (365,) 
这 个 数组 包含 365 个 值 ， 给 出 了 从 2014 年 1 月 1 日 至 2014 年 12 月 31 日 每 天 的 降水 量 。 
这 里 降水 量 的 单位 是 英寸 。 
首先 做 一 个 快速 的 可 视 化 ， 用 Matplotlib (将 在 第 4 章 详细 讨论 该 工具 ) 生成 下 雨天 数 的 
直方 图 ， 如 图 2-6 所 示 : 


In[2]: %matplotlib inline 
import matplotlib.pyplot as plt 
import seaborn; seaborn.set() # 设置 绘图 风格 









































In[3]: plt.hist(inches, 40); 
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图 2-6: 2014 年 西雅图 市 降水 量 直方 图 


该 直方 图 表明 了 这 些 数据 的 大 意 : 尽管 人 们 对 西雅图 市 有 刻板 印象 ， 但 是 2014 年 它 大 多 
数 时 间 的 降水 量 都 是 接近 0 的 。 但 是 这 样 做 并 没有 很 好 地 传递 出 我 们 希望 看 到 的 某 些 信 
息 ， 例 如 一 年 中 有 多 少 天 在 下 雨 ， 这 些 下 雨天 的 平均 降水 量 是 多 少 ， 有 多 少 天 的 降水 量 超 
过 了 半 英 寸 ? 

深入 数据 

回答 以 上 问题 的 一 种 方法 是 通过 传统 的 统计 方式 ， 即 对 所 有 数据 循环 ， 当 碰 到 数据 落 在 
我 们 希望 的 区 间 时 计数 器 便 加 1。 这 种 方法 在 本 章节 中 多 次 讨论 过 ， 但 无 论 从 编写 代码 的 
角度 看 ， 还 是 从 计算 结果 的 角度 看 ， 这 都 是 一 种 浪费 时 间 、 非 常 低 效 的 方法 。 我 们 从 2.3 
节 中 了 解 到 ，NumPy 的 通用 函数 可 以 用 来 替代 循环 ， 以 快速 实现 数组 的 逐 元 素 (element- 
wise) 运算 。 同 样 , 我 们 也 可 以 用 其 他 通用 函数 实现 数组 的 逐 元 素 比较 , 然后 利用 计算 结果 
回答 之 前 提出 的 问题 。 先 将 数据 放 在 一 边 ， 来 介绍 一 下 NumPy 中 有 哪些 用 掩 码 来 快速 回 
答 这 类 问题 的 通用 工具 。 


2.6.2 ”和 通用 函数 类 似 的 比较 操作 

2.3 节 介 绍 了 通用 国 数 ， 并 且 特 别 关 注 了 算术 运算 符 。 我 们 看 到 用 +、-、*、/ 和 其 他 一 些 
运算 符 实 现 了 数组 的 逐 元 素 操作 。NumPy 还 实现 了 如 < (小 于 ) 和 > (大 于 ) 的 逐 元 素 比 
较 的 通用 国 数 。 这 些 比 较 运 算 的 结果 是 一 个 布尔 数据 类 型 的 数组 。 一 共有 6 种 标准 的 比较 
操作 : 


In[4]: x = np.array([1, 2, 3, 4, 5]) 



























































In[5]: x<3 # 小 于 
Out[5]: array([ True, True, False, False, False], dtype=bool) 


In[6]: x > 3 # 大 于 
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Out[6]: array([False, False, False, True， True], dtype=bool) 





In[7]: x <= 3 # 小 于 等 于 
Out[7]: array([ True， True， True, False, False], dtype=bool) 


In[8]: x >= 3 # 大 于 等 于 





Out[8]: array([False, False, True， True， True], dtype=bool) 
In[9]: x != 3 # 不 等 于 


Out[9]: array([ True, True, False, True, True], dtype=bool) 


nh 


In[10]: x == 3 # 等 于 





Out[10]: array([False, False, True, False, False], dtype=bool) 
另外 ， 利 用 复合 表达 式 实 现 对 两 个 数组 的 逐 元 素 比 较 也 古 可 行 的 : 
In[11]: (2 * x) == (x xx 2) 
Out[11]: array([False, True, False, False, False], dtype=bool) 
和 算术 运算 符 一 样 ， 比 较 运 算 操作 在 NumPy 中 也 是 借助 通用 函数 来 实现 的 。 例 如 当 你 写 


x < 3 时 ，NumPy 内 部 会 使 用 np.less(x，3)。 这 些 比较 运算 符 和 其 对 应 的 通用 函数 如 下 
表 所 示 。 








运算 符 ”对 应 的 通用 函数 


二 np.equal 





【= np.not_equal 


< np.Less 
np.less_equal 

> np.greater 

>= np.greater_equal 














和 算术 运算 通用 函数 一 样 ， 这 些 比 较 运 算 通 用 函数 也 可 以 用 于 任意 形状 、 大 小 的 数组 。 下 
面 是 一 个 二 维 数 组 的 示例 : 
In[12]: rng = np.random.RandomState(0) 


x = rng.randint(10, size=(3, 4)) 
x 


Out[12]: array([[5, 0, 3, 3], 
[2 93533. 5] 
[2, 4, 7, 6]]) 
In[13]: x < 6 


Out[13]: array([[ True， True， True， True]， 
[False, False, True， True]， 
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[ True， True, False, False]], dtype=bool) 
这 样 每 次 计算 的 结果 都 是 布尔 数组 了 。NumPy 提供 了 一 些 简 明 的 模式 来 操作 这 些 布尔 
结果 。 
2.6.3 操作 布尔 数组 
给 定 一 个 布尔 数组 ， 你 可 以 实现 很 多 有 用 的 操作 。 首 先 打 印 出 此 前 生成 的 二 维 数组 x: 


In[14]: print(x) 

















[[5 0 3 3] 
上 天 六 二 5 引 
[2 47 6]] 


1. 统计 记录 的 个 数 
如 果 需 要 统计 布尔 数组 中 True 记录 的 个 数 ， 可 以 使 用 np.count_nonzero 国 数 : 
In[15]: # 有 多 少 值 小 于 6? 


np.count_nonzero(x < 6) 
Out[15]: 8 


我 们 看 到 有 8 个 数组 记录 是 小 于 6 的。 另外 一 种 实现 方式 是 利用 np.sum。 在 这 个 例子 中 ， 
False 会 被 解释 成 06，True 会 被 解释 成 1: 


In[16]: np.sum(x < 6) 








Out[16]: 8 


sum() 的 好 处 是 ， 和 其 他 NumPy 聚合 函数 一 样 ， 这 个 求 和 也 可 以 沿 着 行 或 列 进行 : 


In[17]: # 每 行 有 多 少 值 小 于 6? 
np.sum(x < 6, axis=1) 





Out[17]: array([4, 2, 2]) 
这 是 矩阵 中 每 一 行 小 于 6 的 个 数 。 


如 要 快速 检查 任意 或 者 所 有 这 些 值 是 否 为 True， 可 以 用 (你 一 定 猜 到 了 ) np.any() 或 
np.all(): 


In[18]: # 有 没有 值 大 于 8? 
np.any(x > 8) 








Out[18]: True 


In[19]: # 有 没有 值 小 于 03 
np.any(x < 0) 


Out[19]: False 


In[20]: # 是 否 所 有 值 都 小 于 103 
np.all(x < 10) 





Out[20]: True 


In[21]: # 是 否 所 有 值 都 等 于 6? 
np.all(x == 6) 


Out[21]: False 
np.all() 和 np.any() 也 可 以 用 于 沿 着 特定 的 坐标 轴 ， 例 如 


In[22]: # 是 否 每 行 的 所 有 值 都 小 于 
np.all(x < 8, axis=1) 








Co 


? 


Out[22]: array([ True, False, True], dtype=bool) 

这 里 第 1 行 和 第 3 行 的 所 有 元 素 都 小 于 8， 而 第 2 行 不 是 所 有 元 素 都 小 于 8。 
最 后 需要 提醒 的 是 ， 正 如 在 2.4 节 中 提 到 的 ，Python 有 内 置 的 sum()、any() 和 alLL() 函数 ， 
这 些 国 数 在 NumPy 中 有 不 同 的 语法 版 本 。 如 果 在 多 维 数 组 上 混用 这 两 个 版 本 ， 会 导致 失 
败 或 产生 不 可 预知 的 错误 结果 。 因 此 ， 确 保 在 以 上 的 示例 中 用 的 都 是 np.sum()、np.any() 
和 np.all() 国 数 。 
2. 布尔 运算 符 
我 们 已 经 看 到 该 如 何 统计 所 有 降水 量 小 于 4 英寸 或 者 大 于 2 英寸 的 天 数 ， 但 是 如 果 我 们 想 
统计 降水 量 小 于 4 英寸 且 大 于 2 ee 这 可 以 通过 Python 的 逐 位 逻辑 
Se bitwise logic operator) &、 ^ 和 ~ 来 实现 。 同 标准 的 算术 运算 符 一 样 ，NumPy 
用 通用 函数 重 载 了 7 这 些 逻 辑 运算 符 ， 0 (通常 是 布尔 运算 )。 
例如 ， 可 以 写 如 下 的 复合 表达 式 : 


In[23]: np.sum((inches > 0.5) & (inches < 1)) 


















































Out[23]: 29 
可 以 看 到 ， 降 水 量 在 0.5 英寸 ~1 英寸 间 的 天 数 是 29 天 。 
请 注意 ， 这 些 括号 是 非常 重要 的 ， 因 为 有 运算 优先 级 规则 。 如 果 去 掉 这 些 插 号， 该 表达 式 
会 变 成 以 下 形式 ， 这 会 导致 运行 错误 : 

inches > (0.5 & inches) < 1 


利用 A AND B 和 NOT (A OR B) 的 等 价 原理 (你 应 该 在 基础 逻辑 课程 中 学 习 过 )， 可 以 用 
另外 一 种 形式 实现 同样 的 结果 : 


In[24]: np.sum(~( (inches <= 0.5) | (inches >= 1) )) 









































Out[24]: 29 
将 比较 运算 符 和 布尔 运算 符合 并 起 来 用 在 数组 上 ， 可 以 实现 更 多 有 效 的 逻辑 运算 操作 。 
以 下 表格 总 结 了 逐 位 的 布尔 运算 符 和 其 对 应 的 通用 函数 。 
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算 符 对 应 通用 函数 


np.bitwise_and 





np.bitwise_or 


> ”me 


np.bitwise xor 


np.bitwise not 


. 


利用 这 些 工 具 ， 就 可 以 回答 那些 关于 天 气 数据 的 问题 了 。 以 下 的 示例 是 结合 使 用 掩 码 和 聚 
合 实现 的 结果 计算 : 
In[25]: print("Number days without rain: 
print("Number days with rain: 


print("Days with more than 0.5 inches:" 
print("Rainy days with < 0.1 inches 





np.sum(inches == 0)) 
np.sum(inches != 0)) 
np.sum(inches > 0.5)) 
np.sum((inches > 0) & 
(inches < 0.2))) 


v vv vv 


Number days without rain: 215 
Number days with rain: 150 
Days with more than 0.5 inches: 37 
Rainy days with < 0.1 inches : 75 


2.6.4 将 布尔 数组 作为 掩 码 
在 前 面 的 小 节 中 ， 我 们 看 到 了 如 何 直接 对 布尔 数组 进行 聚合 计算 。 一 种 更 强大 的 模式 是 使 
用 布尔 数组 作为 掩 码 ， 通 过 该 扼 码 选择 数据 的 子 数 据 集 。 以 前 面 小 节 用 过 的 x 数组 为 侈 ， 
假设 我 们 希望 抽取 出 数组 中 所 有 小 于 5 的 元 素 : 
In[26]: x 
Out[26]: array([[5，0，3，3]， 
[5]5 
[2，4，7，6]]) 
如 前 面 介绍 过 的 方法 ， 利 用 比较 运算 符 可 以 得 到 一 个 布尔 数组 : 
开 站 [2 天 短文 -和 污 
Out[27]: array([[False, True， True， True]， 


[False, False, True, False], 
[ True, True, False, False]], dtype=bool) 


现在 为 了 将 这 些 值 从 数组 中 选 出 ， 可 以 进行 简单 的 索引 ， 即 掩 码 操作 : 


In[28]: x[x < 5] 





Out[28]: array([0, 3, 3, 3, 2, 4]) 
现在 返回 的 是 一 个 一 维 数组 ， 它 包含 了 所 有 满足 条 件 的 值 。 换 名 话说 ， 所 有 的 这 些 值 是 掩 
码 数组 对 应 位 置 为 True 的 值 。 
现在 ， 可 以 对 这 些 值 做 任意 操作 ， 例 如 可 以 根据 西雅图 降水 数据 进行 一 些 相关 统计 : 



































In[29] : 
# 为 所 有 下 雨天 创建 一 个 掩 码 


rainy = (inches > 0) 


# 构建 一 个 包含 整个 夏季 日 期 的 掩 码 (6 月 21 日 是 第 172 天 ) 
summer = (np.arange(365) - 172 < 90) & (np.arange(365) - 172 > 0) 





print("Median precip on rainy days in 2014 (inches): a 
np.median(inches[rainy])) 
print("Median precip on summer days in 2014 (inches): ",， 


np.median(inches[summer])) 

print("Maximum precip on summer days in 2014 (inches): "， 
np.max(inches[summer])) 

print("Median precip on non-summer rainy days (inches):", 
np.median(inches[rainy & ~summer |])) 


Median precip on rainy days in 2014 (inches): 0.194881889764 
Median precip on summer days in 2014 (inches): 0.0 

Maximum precip on summer days in 2014 (inches): 0.850393700787 
Median precip on non-summer rainy days (inches): 0.200787401575 


通过 将 布尔 操作 、 掩 码 操作 和 聚合 结合 ， 可 以 快速 回答 对 数据 集 提出 的 这 类 问题 。 








使 用 关键 字 and/or 与 使 用 逻辑 操作 运算 符 &/| 

人 们 经 常 困惑 于 关键 字 and 和 or， 以 及 逻辑 操作 运算 符 & 和 | 的 区 别 是 什么 ， 什 么 时 
候 该 选择 哪 一 种 ? 
它们 的 区 别 是 : and 和 or 判断 整个 对 象 是 真 或 假 ， 而 & 和 | 是 指 每 个 对 象 中 的 比特 位 。 
当 你 使 用 and 或 or 时 ， 就 等 于 让 Python 将 这 个 对 象 当 作 整 个 布尔 实体 。 在 Python 中 ， 
所 有 非 替 的 整数 都会 被 当 作 是 True: 

In[30]: bool(42), bool(0) 

Out[30]: (True, False) 

In[31]: bool(42 and 0) 

Out[31]: False 

In[32]: bool(42 or 0) 

Out[32]: True 
当 你 对 整数 使 用 & 和 | 时 ， 表 达 式 操作 的 是 元 素 的 比特 ， 将 and 或 or 应 用 于 组 成 该 数 
字 的 每 个 比特 : 

In[33]: bin(42) 

Out[33]: '0b101010" 

In[34]: bin(59) 


Out[34]: '0b111011' 
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In[35]: bin(42 & 59) 
Out[35]: '0b101010 
In[36]: bin(42 | 59) 
Out[36]: '0b111011" 
请 注意 ,& 和 | 运算 时 ， 对 应 的 二 进 制 比特 位 进行 比较 以 得 到 最 终结 果 。 


你 在 NumPy 中 有 一 个 布尔 数组 时 ， 该 数组 可 以 被 当 作 是 由 比特 字符 组 成 的 ， 其 中 
En 


In[37] : np.array([1, 0, 1, 0, 1, 0], dtype=bool) 
15 0 1 


A = 
B = np.array([1, 1 ，1], dtype=boo1) 
A|B 


Out[37]: array([ True, True, True, False, True, True], dtype=bool) 
而 用 or 来 计算 这 两 个 数组 时 ，Python 会 计算 整个 数组 对 象 的 真 或 假 ， 这 会 导致 程序 出 错 : 


In[38]: A or B 


ValueError Traceback (most recent call last) 


<ipython-input-38-5d8e4f2e21c0> in <module>() 
---->1AorB 


ValueError: The truth value of an array with more than one element is... 
同样 ， 对 给 定数 组 进行 逻辑 运算 时 ， 你 也 应 该 使 用 | 或 &， 而 不 是 or 或 and: 


In[39]: x = np.arange(10) 
(x > 4) & (x < 8) 


Out[39]: array([False, False, ..., True, True, False, False], dtype=bool) 
如 果 试 图 计算 整个 数组 的 真 或 假 ， 程 序 也 同样 会 给 出 ValueError 的 错误 : 
In[40]: (x > 4) and (x < 8) 


ValueError Traceback (most recent call last) 


<ipython-input-40-3d24f1ffd63d> in <module>() 
---->1 (x > 4) and (x < 8) 


ValueError: The truth value of an array with more than one element is... 


因此 可 以 记 住 : and 和 or 对 整个 对 象 执行 单个 布尔 运算 ,而 & 和 | 对 一 个 对 象 的 内 
容 (单个 比特 或 字 节 ) 执行 多 个 布尔 运算 。 对 于 NumPy 布尔 数组 ， 后 者 是 常用 的 
操作 。 














2.7 ”花哨 的 索引 


在 前 面 的 小 节 中 ， 我 们 看 到 了 如 何 利 用 简单 的 索引 值 (如 arr[9])、 切 片 (如 arr[:5]) 和 
布尔 掩 码 (如 arr[arr > 0]) 获得 并 修改 部 分 数组 。 在 这 一 节 中 ， 我 们 将 介绍 另外 一 种 数 
组 索引 ， 也 称 作 花 哨 的 索引 (fancy indexing)。 花 哨 的 索引 和 前 面 那 些 简单 的 索引 非常 类 
似 ， 但 是 传递 的 是 索引 数组 ， 而 不 是 单个 标量 。 花 哨 的 索引 让 我 们 能 够 快速 获得 并 修改 复 
杂 的 数组 值 的 子 数据 集 。 


2.7.1 探索 花哨 的 索引 
花哨 的 索引 在 概念 上 非常 简单 ， 它 意味 着 传递 一 个 索引 数组 来 一 次 性 获得 多 个 数组 元 素 。 
例如 以 下 数组 : 


In[1]: import numpy as np 
rand = np.random.RandomState(42) 























上 






































x = rand.randint(100, size=10) 
print(x) 


[51 92 14 71 60 20 82 86 74 74] 
假设 我 们 希望 获得 三 个 不 同 的 元 素 ， 可 以 用 以 下 方式 实现 : 
In[2]: [x[3]，x[7]，x[2]] 





out[2]: [71, 86, 14] 
另外 一 种 方法 是 通过 传递 索引 的 单个 列表 或 数组 来 获得 同样 的 结果 : 


In[3]: ind = [3, 7, 4] 
x[ind] 


Out[3]: array([71, 86, 60]) 
利用 花哨 的 索引 ， 结 果 的 形状 与 索引 数组 的 形状 一 致 ， 而 不 是 与 被 索引 数组 的 形状 一 致 : 


In[4]: ind = np.array([[3, 7], 
[4, 5]]) 

















x[ind] 


Out[4]: array([[71, 86], 
[60，20]]) 


花哨 的 索引 也 对 多 个 维度 适用 。 假 设 我 们 有 以 下 数组 : 


In[5]: X = np.arange(12).reshape((3, 4)) 
X 





Out[5]: array([[ 6， 1, 2, 3]， 
[ 4, 5, 6, 7], 
[ 8, 9, 10, 11]]) 





和 标准 的 索引 方式 一 样 ， 第 一 个 索引 指 的 是 行 ， 第 二 个 索引 指 的 是 列 : 
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In[6]: row = np.array([0，1，2]) 
col = np.array([2, 1, 3]) 
X[row, col] 


Out[6]: array([ 2, 5, 11]) 


这 里 需要 注意 ， 结 果 的 第 一 个 值 是 X[0，2]， 第 二 个 值 是 X[1，1]， 第 三 个 值 是 X[2，3]。 
在 花哨 的 索引 中 ， 索 引 值 的 配对 遵循 2.5 市 介绍 过 的 广播 的 规则 。 因 此 当 我 们 将 一 个 列 向 
量 和 一 个 行 向 量 组 合 在 一 个 索引 中 时 ， 会 得 到 一 个 二 维 的 结果 : 


In[7]: X[row[:, np.newaxis], col] 






































Out[7]: array([[ 2, 1, 3], 
6; 253=, Ty 
[10, 9, 11]]) 





有 ， 每 一 行 的 值 都 与 每 一 列 的 向 量 配对 ， 正 如 我 们 看 到 的 广播 的 算术 运算 : 


In[8]: row[:, np.newaxis] * col 





Out[8]: array([[0, 0, 9], 
[2， 1 3]， 
[4，2，6]]) 


这 里 特别 需要 记 住 的 是 ， 花 哨 的 索引 返回 的 值 反 映 的 是 广播 后 的 索引 数组 的 形状 ， 而 不 是 
被 索引 的 数组 的 形状 。 

2.7.2 ”组合 索引 

花哨 的 索引 可 以 和 其 他 索引 方案 结合 起 来 形成 更 强大 的 索引 操作 


In[9]: print(X) 





可 以 将 花哨 的 索引 和 简单 的 索引 组 合 使 用 : 


In[10]: Xx[2, [2, 09, 1]] 





Out[10]: array([10, 8, 9]) 
也 可 以 将 花哨 的 索引 和 切片 组 合 使 用 : 
In[11]: Xx[1:, [2, 9, 1]] 


Out[11]: array([[ 6, 4, 5], 
[10, 8, 9]]) 


更 可 以 将 花哨 的 索引 和 掩 码 组 合 使 用 : 


In[12]: mask = np.array([1, 0, 1, 0], dtype=bool) 
X[row[:, np.newaxis], mask] 
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Out[12]: array([[ 0, 2]， 
[ 4， 6]， 
[ 8, 10]]) 


索引 选项 的 组 合 可 以 实现 非常 灵活 的 获取 和 修改 数组 元 素 的 操作 。 


2.7.3 示例 : 选择 随机 点 
花哨 的 索引 的 一 个 常见 用 途 是 从 一 个 矩阵 中 选择 行 的 子 集 。 例 如 我 们 有 一 个 Nx D 的 矩阵 ， 
表示 在 D 个 维度 的 N 个 点 。 以 下 是 一 个 二 维 正 态 分 布 的 点 组 成 的 数组 : 





In[13]: mean = [0, 0] 
cov = [[1, 2], 
[2, 5]] 


X = rand.multivariate normal(mean, cov, 100) 
X.shape 


out[13]: (100, 2) 
利用 将 在 第 4 章 介 绍 的 画图 工具 ， 可 以 用 散 点 图 将 这 些 点 可 视 化 (如 图 2-7 所 示 ) : 








In[14]: %matplotlib inline 
import matplotlib.pyplot as plt 
import seaborn; seaborn.set() # 设置 绘图 风格 














plt.scatter(X[:, 0], Xx[:, 1]); 
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图 2-7: 正 态 分 布 的 点 
我 们 将 利用 花哨 的 索引 随机 选取 20 个 点 一 一 选择 20 个 随机 的 、 不 重复 的 索引 值 ， 并 利用 
这 些 索引 值 选 取 到 原始 数组 对 应 的 值 : 


In[15]: indices = np.random.choice(X.shape[0], 20, replace=False) 
indices 





























Out[15]: array([93, 45, 73, 81, 50, 10, 98, 94, 4, 64, 65, 89, 47, 84, 82, 


80, 25, 90, 63, 20]) 
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In[16]: selection = X[indices] # 花哨 的 索引 
selection. shape 


Out[16]: (20, 2) 
现在 来 看 哪些 点 被 选中 了 ， 将 选中 的 点 在 图 上 用 大 圆圈 标示 出 来 (如 图 2-8 所 示 ) : 
In[17]: plt.scatter(X[:, 0], X[:, 1], alpha=0.3) 


plt.scatter(selection[:, 0], selection[:, 1], 
facecolor='none', edgecolor='b', s=200); 
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图 2-8: 随机 选择 的 点 


这 种 方法 通常 用 于 快速 分 割 数 据 ， 即 需要 分 割 训 练 /测试 数据 集 以 验证 统计 模型 〈 详 情 请 
参见 5.3 市 ) 时 ， 以 及 在 解答 统计 问题 时 的 抽样 方法 中 使 用 。 


2.7.4 用 花哨 的 索引 修改 值 
正如 花哨 的 索引 可 以 被 用 于 获取 部 分 数组 ， 它 也 可 以 被 用 于 修改 部 分 数组 。 例 如 ， 假 设 我 
们 有 一 个 索引 数组 ， 并 且 和 希望 设置 数组 中 对 应 的 值 : 
In[18]: x = np.arange(10) 
i = np.array([2, 1, 8, 4]) 
x[i] = 99 
print(x) 











[09999 399 5 6 799 9] 


可 以 用 任何 的 赋值 操作 来 实现 ， 例 如 : 


In[19]: x[i] -= 10 
print(x) 





[08989 389 5 6 789 9] 


不 过 需要 注意 ， 操 作 中 重复 的 索引 会 导致 一 些 出 乎 意料 的 结果 产生 ， 如 以 下 例子 所 示 : 
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In[20]: x = np.zeros(10) 
x[[0，0]] = [4, 6] 
print(x) 


[6. 0. 0. 0. 0. 0. 0. 0. 0. 0.] 


4 去 哪里 了 呢 ? 这 个 操作 首先 赋值 x[6] = 4， 然 后 赋值 x[0] = 6， 因 此 当然 x[9] 的 值 为 6。 





以 上 还 算 合 理 ， 但 是 设想 以 下 操作 : 
In[21]: i = [2, 3, 3, 4, 4, 4] 


x[i] += 1 
xX 


Out[21]: array([ 6., 0., 1., 1., 1., 0., 





结果 不 同 于 我 们 的 预想 呢 ? 从 概念 的 角度 理解 ， 这 是 








0.，0.，0.，0.]) 


你 可 能 期 望 x[3] 的 值 为 2，x[4] 的 值 为 3， 因为 这 是 这 些 索引 值 重复 的 次 数 。 但 是 为 什么 





因为 x[i] += 1 是 x[i] = x[i] + 1 的 

















简写 。x[i] + 1 计算 后 ， 这 个 结果 被 赋值 给 了 x 相应 的 索引 值 。 记 住 这 个 原理 后 ， 我 们 却 




















发 现 数组 并 没有 发 生 多 次 累加 ， 而 是 发 生 了 赋值 ， 


因此 ， 如 果 你 希望 累加 ， 该 怎么 做 呢 ? 你 可 以 借助 通 
以 后 的 版 本 中 可 以 使 用 ) 来 实现 。 进 行 如 下 操作 : 
In[22]: x = np.zeros(10) 


np.add.at(x, i, 1) 
print(x) 





[0. 0. 1. 2. 3. 0. 0. 0. 0. 0.] 


at() 函数 在 这 里 对 给 定 的 操作 、 给 定 的 索引 (这 里 是 
的 是 就 地 操作 。 另 一 个 可 以 实现 该 功能 的 类 似 方法 是 
以 在 NumPy 文档 中 找到 关于 该 函数 的 更 多 信息 。 


2.7.5 示例: 数据 区 间 划 分 




















显然 这 不 是 我 们 希望 的 结果 。 
用 函数 中 的 at() 方法 (在 NumPy 1.8 


i) 以 及 给 定 的 值 (这 里 是 1) 执行 
通用 函数 中 的 reduceat() 函数 ， 你 可 


你 可 以 用 这 些 方法 有 效 地 将 数据 进行 区 间 划 分 并 手动 创建 直方 图 。 例 如 ， 假 定 我 们 有 1000 





个 值 ， 希 望 快速 统计 分 布 在 每 个 区 间 中 的 数据 频次 ， 


In[23]: np.random.seed(42) 
x = np.random.randn(100) 


# 手动 计算 直方 区 
bins = np.linspace(-5, 5, 20) 
counts = np.zeros_like(bins) 




















# 为 每 个 x 找到 合适 的 区 间 


i = np.searchsorted(bins, x) 





# 为 每 个 区 间 加 上 1 
np.add.at(counts, i, 1) 


计数 数组 counts 反映 的 是 在 每 个 区 间 中 的 点 的 个 数 ， 











可 以 用 ufunc.at 来 计算 : 


即 直方 图 分 布 (如 图 2-9 所 示 ) : 
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In[24]: # 画 出 结果 
plt.plot(bins, counts, linestyle='steps'); 








0 
-6 | -了 0 2 4 6 











2-9: 手动 计算 的 直方 图 





当然 ， 如 果 每 次 需要 画 直 方 图 你 都 这 么 做 的 话 ， 也 是 很 不 明知 的 。 这 就 是 为 什么 Matplotlib 
提供 了 plt.hist() 方法 ,该 方法 仅 用 一 行 代码 就 实现 了 上 述 功 能 : 

plt.hist(x, bins, histtype='step'); 
这 个 函数 将 生成 一 个 和 图 2-9 几乎 一 模 一 样 的 图 。 为 了 计算 区 间 ，Matplotib 将 使 用 
np.histogranm 函数 ,该 函数 的 计算 功能 也 和 上 面 执行 的 计算 类 似 。 接 下 来 比较 一 下 这 两 种 
方法 : 

In[25]: print("Numpy routine:") 

%timeit counts, edges = np.histogram(x, bins) 









































print("Custom routine:") 
%timeit np.add.at(counts, np.searchsorted(bins, x), 1) 


NumPpy routine: 
10000 loops, best of 3: 97.6 Hs per loop 
Custom routine: 
10000 loops, best of 3: 19.5 hs per loop 


可 以 看 到 ， 我 们 一 行 代码 的 算法 比 NumPy 优化 过 的 算法 快 好 几 倍 ! 这 是 如 何 做 到 的 呢 ? 
如 果 你 深入 np.histogram 源 代码 (可 以 在 IPython 中 输入 np.histogram?? 查看 源 代码 )， 
就 会 看 到 它 比 我 们 前 面 用 过 的 简单 的 搜索 和 计数 方法 更 复杂 。 这 是 由 于 NumPy 的 算法 更 
灵活 (需要 适应 不 同 场景 )， 因 此 在 数据 点 比较 大 时 更 能 显示 出 其 良好 性 能 : 

In[26]: x = np.random.randn(1000000) 


print("NumPy routine:") 
%timeit counts, edges = np.histogram(x, bins) 





print("Custom routine:") 
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%timeit np.add.at(counts, np.searchsorted(bins, x), 1) 


NumPy routine: 
10 loops, best of 3: 68.7 ms per loop 
Custom routine: 
10 loops, best of 3: 135 ms per loop 


以 上 比较 表明 ， 算 法 效率 并 不 是 一 个 简单 的 问题 。 一 个 对 大 数据 集 非 常 有 效 的 算法 并 不 总 
是 小 数据 集 的 最 佳 选择 ， 反 之 同 理 (详情 请 参见 2.8.3 节 )。 但 是 自己 编写 这 个 算法 的 好 处 
是 可 以 理解 这 些 基本 方法 。 你 可 以 利用 这 些 编写 好 的 模块 去 扩展 ， 以 实现 一 些 有 意思 的 自 
定义 操作 。 将 Python 有 效 地 用 于 数据 密集 型 应 用 中 的 关键 是 ， 当 应 用 场景 合适 时 知道 使 用 
np.histogram 这 样 的 现成 函数 ， 当 需要 执行 更 多 指定 的 操作 时 也 知道 如 何 利 用 更 低级 的 功 
能 来 实现 。 


2.8 数组 的 排序 


到 目前 为 止 ， 我们 主要 关注 了 用 NumPy 获取 和 操作 数组 的 工具 。 这 一 节 将 介绍 用 于 排序 
NumPy 数组 的 相关 算法 ， 这 些 算法 是 计算 机 科学 导论 课程 非常 偏爱 的 话题 。 如 有 果 你 曾经 参 
加 过 这 样 的 课程 ， 你 可 能 睡觉 时 都 在 想 插入 排序 、 选 择 排序 、 归 并 排序 、 快 速 排序 、 冒 泡 
排序 等 〈 这 取决 于 你 的 体温 ， 也 可 能 是 一 个 置 梦 )。 所 有 这 些 方法 都 是 为 了 实现 一 个 类 似 
的 任务 ， 对 一 个 列表 或 数组 进行 排序 。 


例如 ， 一 个 简单 的 选择 排序 重复 寻找 列表 中 的 最 小 值 ， 并 且 不 断交 换 直 到 列表 是 有 序 的 。 
可 以 在 Python 中 仅 用 几 行 代码 来 实现 : 


In[1]: import numpy as np 


























def selection sort(x): 
for i in range(len(x)): 
swap = i + np.argmin(x[i:]) 
(x[i], x[swap]) = (x[swap], x[i]) 
return x 


In[2]: x = np.array([2, 1, 4, 3, 5]) 
selection_sort(x) 


Out[2]: array([1, 2, 3, 4, 5]) 


正如 任何 大 学 一 年 级 的 计算 机 科学 课程 会 告诉 你 的 ， 选 择 排序 因为 其 简洁 而 非常 有 用 ， 但 
是 它 对 于 大 数组 来 说 太 慢 了 。 对 于 一 个 包含 N 个 值 的 数组 来 说 ， 它 需要 做 NN 个 循环 ， 每 
个 循环 中 执行 ~ N 次 比较 ， 以 找到 交换 值 。“ 大 O 标记 ”常用 来 标示 算法 的 复杂 度 (详情 
请 参见 2.8.3 节 )， 选 择 排序 的 平均 算法 复杂 度 为 O [N ]: 如 果 你 将 列表 中 元 素 的 个 数 翻 倍 ， 
那么 运行 时 间 就 会 延长 4 倍 。 

即便 如 此 ， 选 择 排序 都 比 我 自己 最 喜欢 的 bogosort 排序 算法 的 性 能 要 好 : 


In[3]: def bogosort(x): 
while np.any(x[:-1] > x[1:]): 
np.random.shuffLe(x) 
return X 
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In[4]: x = np.array([2, 1, 4, 3, 5]) 
bogosort(x) 


Out[4]: array([1, 2, 3, 4, 5]) 


这 个 很 傻 的 算法 的 实现 完全 是 磁 运 气 : 它 不 断 对 数组 元 素 进行 随机 重 排 ， 直 到 成 为 有 序 
组 才 停止 。 这 个 算法 的 复杂 度 为 GO [N x NU (LV 乘 以 N 的 阶乘 )。 很 明显 ， 2 
远 不 会 用 于 任何 实际 运算 场景 的 。 


吉 运 的 是 ，Python 包含 的 很 多 内 置 排序 算法 都 比 上 面 例子 中 的 算法 高 效 得 多 。 首 先 介 


绍 Python 的 内 置 排序 算法 ， 然 后 介绍 NumPy 中 的 排序 算法 和 优化 过 的 NumPy 数组 排 
序 算 法 。 


2.8.1 NumPy 中 的 快速 排序 : np.sort 和 np.argsort 

尽管 Python 有 内 置 的 sort 和 sorted 函数 可 以 对 列表 进行 排序 ， 但 是 这 里 不 会 介绍 这 两 个 
函数 ， 因 为 NumPy 的 np.sort 函数 实际 上 效率 更 高 。 默 认 情 况 下 ，np.sort 的 排序 算法 是 
快速 排序 ， 其 算法 复杂 度 为 G [N log N ]， 另 外 也 可 以 选择 归并 排序 和 堆 排 序 。 对 于 大 多 数 
应 用 场景 ， 默 认 的 快速 排序 已 经 足够 高 效 了 。 

如 果 想 在 不 修改 原始 输入 数组 的 基础 上 返回 一 个 排 好 序 的 数组 ， 可 以 使 用 np.sort: 


In[5]: x = np.array([2, 1, 4, 3, 5]) 
np.sort(x) 











Out[5]: array([1, 2, 3, 4, 5]) 


如 有 果 和 希望 用 排 好 序 的 数组 替代 原始 数组 ， 可 以 使 用 数组 的 sort 方法 : 


In[6]: x.sort() 
print(x) 


[12345] 


另外 一 个 相关 的 函数 是 argsort， 该 函数 返回 的 是 原始 数组 排 好 序 的 索引 值 : 
In[7]: x = np.array([2, 1, 4, 3, 5]) 
i = np.argsort(x) 
print(i) 
[10324] 
以 上 结果 的 第 一 个 元 素 是 数组 中 最 小 元 素 的 索引 值 ， 第 二 个 值 给 出 的 是 次 小 元 素 的 索引 
值 ， 以 此 类 推 。 这 些 索引 值 可 以 被 用 于 (通过 花哨 的 索引 ) 创建 有 序 的 数组 : 
In[8]: xLT] 


Out[8]: array([1, 2, 3, 4, 5]) 





沿 着 行 或 列 排序 
NumPy 排序 算法 的 一 个 有 用 的 功能 是 通过 axis 参数 ， 沿 着 多 维 数 组 的 行 或 列 进行 排序 ， 
例如 : 


In[9]: rand = np.random.RandomState(42) 
X = rand.randint(0, 10, (4, 6)) 
print(X) 


In[10]: # 对 X 的 每 一 列 排序 


np.sort(X, axis=0) 


Out[10]: array([[2, 1, 4, 0, 1, 5], 
5 2 55 4， 3 7] ， 
[6 3% 7 4 6 了] 
[7, 6, 7, 4, 9, 9]]) 

In[11]: # 对 X 每 一 行 排序 

np.sort(X, axis=1) 

Out[11]: array([[3, 4, 6, 6, 7, 9], 
2, 3, 4, 6, 7, 7], 
[1, 2, 4, 5, 7, 7], 
[0, 1, 4, 5, 5, 9]]) 

















需要 记 住 的 是 ， 这 种 处 理 方式 是 将 行 或 列 当 作 独 立 的 数组 ， 任 何 行 或 列 的 值 之 间 的 关系 将 
会 丢失 ! 


2.8.2 ”部 分 排序 分 隔 

有 时 候 我 们 不 希望 对 整个 数组 进行 排序 ， 仅 仅 希 望 找到 数组 中 第 天 小 的 值 ， NumPy 的 
np.partition 国 数 提 供 了 该 功能 。np.partition 函数 的 输入 是 数组 和 数字 K， 输 出 结果 是 
一 个 新 数组 ， 最 左边 是 第 玉 小 的 值 ， 往 右 是 任意 顺序 的 其 他 值 : 


In[12]: x = np.array([7, 2, 3, 1, 6, 5, 4]) 
np.partition(x, 3) 


























Out[12]: array([2, 1, 3, 4, 6, 5, 7]) 


请 注意 ， 结 果 数 组 中 前 三 个 值 是 数组 中 最 小 的 三 个 值 ， 剩 下 的 位 置 是 原始 数组 剩 下 的 值 。 
在 这 两 个 分 隔 区 间 中 ， 元 素 都 是 任意 排列 的 。 


与 排序 类 似 ， 也 可 以 沿 着 多 维 数组 任意 的 轴 进 行 分 隔 : 


In[13]: np.partition(X, 2, axis=1) 








Out[13]: array([[3, 4, 6, 7, 6, 9]，, 
[2,3 "ds 17 O77 ]s 
[5 7 
[0 3 4 .5.9 51]) 
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输出 结果 是 一 个 数组 ， 该 数组 每 一 行 的 前 两 个 元 素 是 该 行 最 小 的 两 个 值 ， 每 行 的 其 他 值 分 
布 在 剩 下 的 位 置 。 

最 后 ， 正 如 np.argsort 函数 计算 的 是 排序 的 索引 值 ， 也 有 一 个 np.argpartition 函数 计算 
的 是 分 隔 的 索引 值 ， 我 们 将 在 下 一 节 中 举例 介绍 它 。 


2.8.3 示例 : K 个 最 近邻 

以 下 示例 展示 的 是 如 何 利用 argsort 函数 沿 着 多 个 轴 快 速 找到 集合 中 每 个 点 的 最 近邻 。 首 
先 ， 在 二 维 平面 上 创建 一 个 有 10 个 随机 点 的 集合 。 按 照 惯例 ， 将 这 些 数据 点 放 在 一 个 
10 x2 的 数组 中 : 


In[14]: X = rand.rand(10, 2) 
为 了 对 这 些 点 有 一 个 直观 的 印象 ， 来 画 出 它 的 散 点 图 (如 图 2-10 所 示 ) : 


In[15]: %matplotlib inline 
import matplotlib.pyplot as plt 
import seaborn; seaborn.set() # 设置 画图 风格 
plt.scatter(X[:, 0], X[:, 1], s=100); 
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2-10: 将 示例 个 最 近邻 中 的 点 可 视 化 
现在 来 计算 两 两 数据 点 对 间 的 距离 。 我 们 学 过 两 点 间距 离 的 平方 等 于 每 个 维度 的 距离 差 的 
平方 的 和 。 利 用 NumPy 的 广播 (详情 请 参见 2.5 节 ) 和 聚合 (详情 请 参见 2.4 节 ) 功能 ， 
可 以 用 一 行 代码 计算 算 阵 的 平方 距离 : 

In[16]: dist sq = np.sum((X[:,np.newaxis,:] - X[np.newaxis,:,:]) ** 2, axis=-1) 
这 个 操作 由 很 多 部 分 组 成 。 如 果 你 对 NumPy 的 广播 规则 不 熟悉 的 话 ， 可 能 这 行 代码 看 起 
来 有 些 令 人 困惑 。 当 你 遇 到 这 种 代码 时 ， 将 其 各 组 件 分 解 后 再 分 析 是 非常 有 用 的 ; 











In[17]: # 在 坐标 系 中 计算 每 对 点 的 差 值 
differences = X[:, np.newaxis, :] - X[np.newaxis, :, :] 
differences.shape 











Out[17]: (10, 10, 2) 


In[18]: # 求 出 差 值 的 平方 
sq_differences = differences ** 2 
sq_differences.shape 





Out[18]: (10, 10, 2) 


In[19]: # 将 差 值 求 和 获得 平方 距离 
dist sq = sq_differences.sum(-1) 
dist_sq.shape 





Out[19]: (10, 10) 
请 再 次 确认 以 上 步骤 ， 应 该 看 到 该 矩阵 的 对 角 线 (也 就 是 每 个 点 到 其 自身 的 距离 ) 的 值 
都 是 0: 


In[20]: dist_sq.diagonal() 

















Out[20]: array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]) 


结果 确实 是 这 样 的 ! 当 我 们 有 了 这 样 一 个 转化 为 两 点 间 的 平方 距离 的 矩阵 后 ， 就 可 以 使 用 
np.argsort 函数 沿 着 每 行进 行 排序 了 。 最 左边 的 列 给 出 的 索引 值 就 是 最 近邻 : 


In[21]: nearest = np.argsort(dist sq, axis=1) 








print(nearest) 
[[0397142568] 
[14793685602] 
[2146308975] 
[3970145862] 
[4185679302] 
[5864179320] 
[6854179320] 
[7931405862] 
[8564179320] 
[9730145862]] 





需要 注意 的 是 ， 第 一 列 是 按 0~9 从 小 到 大 排列 的 。 这 是 因为 每 个 点 的 最 近邻 是 其 自身 ， 所 
以 结果 也 正如 我 们 所 想 。 

如 果 使 用 全 排序 ， 我 们 实际 上 可 以 实现 的 比 这 个 例子 展示 的 更 多 。 如 果 我 们 仅仅 关心 个 
最 近邻 ， 那 么 唯一 需要 做 的 是 分 隔 每 一 行 ， 这 样 最 小 的 上 + 1 的 平方 距离 将 排 在 最 前 面 ， 
其 他 更 长 的 距离 占据 和 矩阵 该 行 的 其 他 位 置 。 可 以 用 np.argpartition 国 数 实现 : 


In[22]: K = 2 
nearest_partition = np.argpartition(dist sq，K + 1, axis=1) 
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为 了 将 邻 节点 网 络 可 视 化 ， 我 们 将 每 个 点 和 其 最 近 的 两 个 最 近邻 连接 (如 图 2-11 所 示 ) : 


In[23]: pLt.scatter(X[:，0]，X[:，1]，s=100) 





# 将 每 个 点 与 它 的 两 个 最 近邻 连接 
K = 2 


for i in range(X.shape[0]): 
for j in nearest partition[i, :K+1]: 
# 画 一 条 从 X[i] 到 xX[j] 的 线段 
# 用 zip 方 法 实现 : 
plt.plot(*zip(X[j], X[i]), color='black') 





“匠人 2 00 02 04 06 08 10 12 











图 2-11: 每 个 点 的 邻 节 点 的 可 视 化 


图 中 每 个 点 和 离 它 最 近 的 两 个 节点 用 连 线 连接 。 乍 一 看 ， 你 可 能 会 奇怪 为 什么 有 些 点 的 连 
线 多 于 两 条 ， 这 是 因为 点 A 是 点 B 最 邻近 的 两 个 市 点 之 一 ， 但 是 并 不 意味 着 点 B 一 定 是 
点 A 的 最 邻近 的 两 个 节点 之 一 。 


尽管 本 例 中 的 广播 和 按 行 排序 可 能 看 起 来 不 如 循环 直观 ， 但 是 在 实际 运行 中 ，Python 中 
这 类 数据 的 操作 会 更 高 效 。 你 可 能 会 尝试 通过 手动 循环 数据 并 对 每 一 组 邻 节 点 单独 进行 排 
序 来 实现 同样 的 功能 ， 但 是 这 种 方法 和 我 们 使 用 的 向 量化 操作 相 比 ， 肯 定 在 算法 执行 上 效 
率 更 低 。 并 且 向 量化 操作 的 优美 之 处 在 于 ， 它 的 实现 方式 决定 了 它 对 输入 数据 的 数据 量 并 
不 敏感 。 也 就 是 说 ， 我 们 可 以 非常 轻松 地 计算 任意 维度 空间 的 100 或 1 000 000 个 邻 节 点 ， 
而 代码 看 起 来 是 一 样 的 。 

最 后 还 想 提醒 一 点 ， 做 大 数据 量 的 最 近邻 搜索 时 ， 有 几 种 基于 树 的 算法 的 算法 复杂 度 可 
以 实现 接近 GC [N log N ]， 或 者 比 暴 力 搜索 法 的 O [V3] 更 好 。 其 中 一 种 就 是 KD-Tree， 在 
Scikit-Learn (http:Wbitly/2fSpdxI) 中 实现 。 



































大 O 标记 

大 O 标记 是 一 种 描述 一 个 算法 对 于 相应 的 输入 数据 的 大 小 需要 执行 的 操作 步骤 数 。 要 
想 正 确 使 用 它 ， 需 要 深入 理解 计算 机 科学 理论 ， 并 且 将 其 和 小 0 标记、 大 6 标记 、 大 
Q 标记 以 及 其 他 混合 变 体 区 分 开 。 虽 然 区 分 这 些 概 念 可 以 提高 算法 复杂 度 计 量 的 准确 
性 ， 但 是 除了 在 计算 机 科学 理论 和 学 完 的 博客 评论 外 ， 实 际 中 很 少 有 这 种 区 分 。 在 数 
据 科 学 中 ， 更 常见 的 还 是 不 太 严 说 的 大 〇 标记 一 一 一 种 通用 的 (或许 是 不 准确 的 ) 算 
法 复杂 度 的 度量 描述 。 在 这 里 要 向 相关 的 理论 学 家 和 学 者 致歉 ， 本 书 中 都 会 使 用 这 种 
表述 方式 。 

如 果 不 用 太 严 说 的 眼光 看 待 大 0 标记， 那么 它 其 实 是 告诉 你 : 随 着 输入 数据 量 的 增 
长 ， 你 的 算法 将 花费 多 少时 间 。 如 果 你 有 一 个 CO [N] ( 读 作 “N 阶 ”) 复杂 度 的 算法 ， 
该 算法 花费 1 秒 钟 来 执行 一 个 长 度 为 N = 1000 的 列表 ， 那 么 它 执行 一 个 长 度 为 V = 
5000 的 列表 花费 的 时 间 大 约 是 5 秒 钟 。 如 果 你 有 一 个 算法 复杂 度 为 T [IN”] ( 读 作 “N 
的 平方 阶 ”) ， 且 该 算法 花费 1 秒 钟 来 执行 一 个 长 度 为 N = 1000 的 列表 ， 那 么 它 执行 一 
个 长 度 为 N=5000 的 列表 花费 的 时 间 大 约 是 25 秒 钟 。 


在 计算 算法 复杂 度 时 ，N 通常 表示 数据 集 的 大 小 (数据 点 的 个 数 、 维 度 的 数目 等 )。 当 
我 们 试图 分 析 数 十 亿 或 数 百 万 亿 的 数据 时 ， 算 法 复杂 度 为 0 [N] 和 算法 复杂 度 为 0 [V] 
会 有 非常 明显 的 差别 ! 


需要 注意 的 是 ， 大 O 标记 并 没有 告诉 你 计算 的 实际 时 间 ， 而 仅仅 告诉 你 改变 N 的 值 
时 ,运行 时 间 的 相应 变化 。 通 常情 况 下 ,OC [N] 复杂 度 的 算法 比 O LV] 复杂 度 的 算法 更 
高 效 。 但 是 对 于 小 数据 集 ， 算 法 复杂 度 更 优 的 算法 可 能 未 必 更 快 。 例 如 对 于 给 定 的 问 
题 ， DO [N”] 复杂 度 的 算法 可 能 会 花费 0.01 秒 ， 而 更 “优异 ”的 DO [N] 复杂 度 的 算法 可 
能 会 花费 1 秒 。 按 照 1000 的 因子 将 和 倍增， 那么 CO [N] 复杂 度 的 算法 将 胜出 。 


即使 是 这 个 非 严格 版 本 的 大 O 标记 对 于 比较 算法 的 性 能 也 是 非常 有 用 的 。 我 们 将 在 本 
书 中 用 这 个 标记 来 测量 算法 复杂 度 。 





2.9 结构 化 数据 : NumPy 的 结构 化 数组 


大 多 数 时候 ， 我 们 的 数据 可 以 通过 一 个 异 构 类 型 值 组 成 的 数组 表示 ， 但 有 时 却 并 非 如 此 。 
本 市 介绍 NumPy 的 结构 化 数组 和 记录 数组 ， 它 们 为 复合 的 、 异 构 的 数据 提供 了 非常 有 
效 的 存储 。 尽 管 这 里 列举 的 模式 对 于 简单 的 操作 非常 有 用 ， 但 是 这 些 场景 通常 也 可 以 用 
Pandas 的 DataFrame 来 实现 (将 在 第 三 章 详细 介绍 )。 

假定 现在 有 关于 一 些 人 的 分 类 数据 (如 姓名 、 年 龄 和 体重 )， 我 们 需要 存储 这 些 数 据 用 于 
Python 项 目 ， 那 么 一 种 可 行 的 方法 是 将 它们 存在 三 个 单独 的 数组 中 : 

In[2]: name = ['Alice', 'Bob', 'Cathy', 'Doug'] 


age = [25, 45, 37, 19] 
weight = [55.0, 85.5, 68.0, 61.5] 


但 是 这 种 方法 有 点 租 ， 因 为 并 疫 有 任何 信息 告诉 我 们 这 三 个 数组 是 相关 联 的 。 如 有 果 可 以 用 
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一 种 单一 结构 来 存储 所 有 的 数据 ， 那 么 看 起 来 会 更 自然 。NumPy 可 以 用 结构 化 数组 实现 这 
种 存储 ， 这 些 结构 化 数组 是 复合 数据 类 型 的 。 
前 面 介 绍 过 ， 利 用 以 下 表达 式 可 以 生成 一 个 简单 的 数组 : 
In[3]: x = np.zeros(4, dtype=int) 
与 之 类 似 ， 通 过 指定 复合 数据 类 型 ， 可 以 构造 一 个 结构 化 数组 : 
In[4]: # 使 用 复合 数据 结构 的 结构 化 数组 


data = np.zeros(4, dtype={'names':('name', 'age', 'weight'), 
'formats':('U10', 'i4', 'f8')}) 




















print(data.dtype) 
[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')] 
这 里 U19 表示 “长 度 不 超过 10 的 Unicode 字符 串 "，i4 表示 “4 字 节 ( 即 32 比特 ) 整 型 ”， 
f8 表示 “8 字 节 ( 即 64 比特 ) 浮 点 型 ”。 后 续 的 小 节 中 将 介绍 更 多 的 数据 类 型 代码 。 
现在 生成 了 一 个 空 的 数组 容器 ， 可 以 将 列表 数据 放 入 数组 中 : 
In[5]: data[ 'name'] = name 
data[ 'age'] = age 


data[ 'weight'] = weight 
print(data) 








[('Alice', 25, 55.0) ('Bob', 45, 85.5) ('Cathy', 37, 68.0) 
('Doug', 19, 61.5)] 


正如 我 们 希望 的 ， 所 有 的 数据 被 安排 在 一 个 内 存 块 中 。 
结构 化 数组 的 方便 之 处 在 于 ， 你 可 以 通过 索引 或 名 称 查 看 相应 的 值 ， 
In[6]: # 获取 所 有 名 字 


data[ 'name'] 


Out[6]: array(['Alice', 'Bob', 'Cathy', 'Doug'], 
dtype='<U10 ' ) 





In[7]: # 获取 数据 第 一 行 
data[0] 


out[7]: ('Alice', 25, 55.0) 


In[8]: # 获取 最 后 一 行 的 名 字 
data[-1]['name'] 


Out[8]: 'Doug' 
利用 布尔 掩 码 ， 还 可 以 做 一 些 更 复杂 的 操作 ， 如 按照 年 龄 进行 筛选 ，; 


In[9]: # 获取 年 龄 小 于 39 岁 的 人 的 名 字 
data[data['age'] < 30]['name'] 





Out[9]: array(['Alice', 'Doug'], 
dtype='<U10 ' ) 
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请 注意 ， 如 果 








构建 于 NumPy 数组 之 上 的 ， 提 供 了 很 多 有 用 的 数据 操作 功能 ， 其 中 有 些 与 前 


你 


希 








望 实现 比 上 面 更 复杂 的 操作 ， 那 么 你 应 该 芬 虑 使 用 Pandas 包 ， 我 们 将 在 
下 一 章 中 详细 介绍 它 。 正 如 你 将 会 看 到 的 ，Pandas 提供 了 一 个 DataFrame 对 象 ， 该 结构 是 














似 ， 当 然 也 有 更 多 设 提 过 并 且 非 常 实用 的 功能 。 


2.9.1 生成 结构 化 数组 
结构 化 数组 的 数据 类 型 有 多 种 制定 方式 。 此 前 我 们 看 过 了 采用 字典 的 方法 : 


In[10]: np.dtype({'names':('name', 'age', 'weight'), 
'formats':('U10', 'i4', 'f8')}) 

















Out[10]: dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]) 
为 了 简明 起 见 ， 数 值 数 据 类 型 可 以 用 Python 类 型 或 NumPy 的 dtype 类 型 指定 : 


In[11]: np.dtype({'names':('name', 'age', 'weight'), 
'formats':((np.str_, 10), int, np.float32)}) 


Out[11]: dtype([('name'’, '<U10'), ('age', '<i8'), ('weight', '<f4')]) 


复合 类 型 也 可 以 是 元 组 列表 : 


In[12]: np.dtype([('name' 





，'S10'), ('age', 'i4'), ('weight', 'f8')]) 


Out[12]: dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')]) 


如 果 类 型 的 名 称 对 你 来 说 并 不 重要 ， 那 你 可 以 仅仅 用 一 个 字符 串 来 指定 它 。 在 该 字符 串 中 
数据 类 型 用 逗号 分 隔 : 


In[13]: np.dtype('S10,i4,f8') 





Out[13]: dtype([('fO', 'S10'), ('f1', '<i4'), ('f2', '<f8')]) 


简写 的 字符 串 格 式 的 代码 可 能 看 起 来 令 人 
一 个 (可 选 ) 字符 是 < 或 者 >， 分 别 表示 “ 

















看 介绍 的 类 


困惑 ， 但 是 它们 其 实 基 于 非常 简单 的 规则 。 第 
低 字 节 序 ”(little endian) 和 “高 字 节 序 ”(bid 


endian) ， 表 示 字 节 (bytes) 类 型 的 数据 在 内 存 中 存放 顺序 的 习惯 用 法 。 后 一 个 字符 指定 的 























是 数据 的 类 型 : 字符 、 字 节 、 整 型 、 浮 点 型 ， 等 等 (如 表 2-4 所 示 )。 最 后 一 个 字符 表示 该 
对 象 的 字 节 大 小 。 

表 2-4: NumPy 的 数据 类 型 

NumPy 数 据 类 型 符号 ”描述 示例 

‘ba 字 节 型 np.dtype('b') 

Se 有 符号 整 型 np.dtype('i4') == np.int32 

‘uy! 无 符号 整 型 np.dtype('u1') == np.uint8 

sy 浮 点 型 np.dtype('f8') == np.int64 

“GE 复数 浮 点 型 np.dtype('c16') == np.compLex128 
Oh 字符 串 np.dtype('S5 ' ) 

'U!' Unicode 编码 字符 串 np.dtype('U') == np.str_ 

区 原生 数据 ，raw data ( 空 ，void ) np.dtype('V') == np.void 
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2.9.2 ”更 高 级 的 复合 类 型 
NumPy 中 也 可 以 定义 更 高 级 的 复合 数据 类 型 。 例 如 ， 你 可 以 创建 一 种 类 型 ， 其 中 每 个 元 素 
都 包含 一 个 数组 或 矩阵 。 我 们 会 创建 一 个 数据 类 型 ， 该 数据 类 型 用 mat 组 件 包 含 一 个 3x3 
的 浮 点 矩阵 : 
In[14]: tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))]) 
X = np.zeros(1, dtype=tp) 


print(X[0]) 
print(X['mat'][0]) 





(0，[[6.0，60.0，0.0]，[0.0， 6.0，0.0]，[6.0，0.0，0.0]]) 
[L000 20 
[06. 0. 0.] 
[ 6. 0. 09.]] 





现在 X 数 组 的 每 个 元 素 都 包含 一 个 td 和 一 个 3 x3 的 和 矩阵。 为 什么 我 们 宁愿 用 这 种 方法 存 
储 数据 ， 也 不 用 简单 的 多 维 数组 ， 或 者 Python 字典 呢 ? 原因 是 NumPy 的 dtype 直接 映射 
到 C 结构 的 定义 ， 因 此 包含 数组 内 容 的 缓存 可 以 直接 在 C 程序 中 使 用 。 如 果 你 想 写 一 个 
Python 接口 与 一 个 遗留 的 C 语言 或 Fortran 库 交 互 ， 从 而 操作 结构 化 数据 ， 你 将 会 发 现 结 
构 化 数组 非常 有 用 ! 


2.9.3 ”记录 数组 : 结构 化 数组 的 扭转 

NumPy 还 提供 了 np.recarray 类 。 它 和 前 面 介 绍 的 结构 化 数组 儿 乎 相同 ， 但 是 它 有 一 个 独 
特 的 特征 : 域 可 以 像 属性 一 样 获取 ， 而 不 是 像 字 典 的 键 那样 获取 。 前 面 的 例子 通过 以 下 代 
码 获取 年 龄 : 


In[15]: data['age'] 
































下 二 











Out[15]: array([25, 45, 37, 19], dtype=int32) 
如 果 将 这 些 数据 当 作 一 个 记录 数组 ， 我 们 可 以 用 很 少 的 按键 来 获取 这 个 结果 : 


In[16]: data_rec = data.view(np.recarray) 
data_rec.age 











Out[16]: array([25, 45, 37, 19], dtype=int32) 
记录 数组 的 不 好 的 地 方 在 于 ， 即 使 使 用 同样 的 语法 ， 在 获取 域 时 也 会 有 一 些 额 外 的 开销 ， 
如 以 下 示例 所 示 : 


In[17]: %timeit data['age'] 
%timeit data_rec['age'] 
%timeit data_rec.age 








1000000 loops, best of 3: 241 ns per Loop 
100000 loops, best of 3: 4.61 Hs per loop 
100000 loops, best of 3: 7.27 hs per Loop 


是 否 值得 为 更 简便 的 标记 方式 花费 额外 的 开销 ， 这 将 取决 于 你 的 实际 应 用 。 
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2.9.4 关于 Pandas 


本 章 将 结构 化 数组 和 记录 数组 放 在 末尾 是 有 意 为 之 ， 因 为 它们 能 很 好 地 衔接 下 一 章 要 介绍 
的 包 : Pandas。 本 章 介绍 的 结构 化 数组 在 某 些 场景 中 很 好 用 ， 特 别 是 当 你 用 C、EFortran 或 
甚 他 语言 将 NumPy 数组 映射 为 二 进 制 数据 格式 时 。 但 是 如 果 每 天 都 需要 使 用 结构 化 数据 ， 
那么 Pandas 包 是 更 好 的 选择 ， 我 们 将 在 接 下 来 的 一 章 详细 介绍 它 。 
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第 3 章 


Pandas 数 据 处 理 





在 上 一 章 中 ， 我 们 详细 介绍 了 NumPy 和 它 的 ndarray 对 象 ， 这 个 对 象 为 Python 多 维 数组 
提供 了 高 效 的 存储 和 处 理 方法 。 下 面 ， 我 们 将 基于 前 面 的 知识 ， 深 入 学 习 Pandas 程序 库 提 
供 的 数据 结构 。Pandas 是 在 NumPy 基础 上 建立 的 新 程序 库 ， 提 供 了 一 种 高 效 的 DataFrame 
数据 结构 。DataFrame 本 质 上 是 一 种 带 行 标 签 和 列 标签 、 支 持 相 同类 型 数据 和 缺失 值 的 多 
维 数组 。Pandas 不 仅 为 带 各 种 标签 的 数据 提供 了 便利 的 存储 界面 ， 还 实现 了 许多 强大 的 操 
作 ， 这 些 操作 对 数据 库 框架 和 电子 表格 程序 的 用 户 来 说 非常 熟悉 。 


正如 我 们 之 前 看 到 的 那样 ，NumPy 的 ndarray 数据 结构 为 数值 计算 任务 中 常见 的 干净 整 
齐 、 组 织 良 好 的 数据 提供 了 许多 不 可 或 缺 的 功能 。 虽 然 它 在 这 方面 做 得 很 好 ， 但 是 当 我 们 
需要 处 理 更 灵活 的 数据 任务 (如 为 数据 添加 标签 、 处 理 缺 失 值 等 )， 或 者 需要 做 一 些 不 是 
对 每 个 元 素 都 进行 广播 映射 的 计算 (如 分 组 、 透 视 表 等 ) 时 ，NumPy 的 限制 就 非常 明显 
了 ， 而 这 些 都 是 分 析 各 种 非 结构 化 数据 时 很 重要 的 一 部 分 。 建 立 在 NumPy 数组 结构 上 的 
Pandas， 尤 其 是 它 的 Series 和 DataFrame 对 象 ， 为 数据 科学 家 们 处 理 那 些 消 耗 大 量 时 间 的 
“数据 清理 ”(data munging) 任务 提供 了 捷径 。 


本 章 将 重点 介绍 Series、DataFrame 和 其 他 相关 数据 结构 的 高 效 使 用 方法 。 我 们 会 酌情 使 
用 真实 数据 集 作为 演示 示例 ， 但 这 些 示例 本 身 并 不 是 学 习 重 点 。 


3.1 安装 并 使 用 Pandas 


在 安装 Pandas 之 前 ， 确 保 你 的 操作 系统 中 有 NumPy。 如 果 你 是 从 源 代码 直接 编译 ， 那 么 
还 需要 相应 的 工具 编译 建立 Pandas 所 需 的 C 语言 与 Cython 代码 。 详 细 的 安装 方法 ， 请 参 
考 Pandas 官方 文档 (http://pandas.pydata.org/)。 如 果 你 按照 前 言 的 建议 使 用 了 Anaconda， 
那么 Pandas 就 已 经 安装 好 了 。 
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Pandas 安装 好 之 后 ， 可 以 导入 它 检 查 一 下 版 本 号 : 


In[1]: import pandas 
pandas.__version_ _ 


Out[1]: '0.18.1' 
和 之 前 导入 NumPy 并 使 用 别名 np 一样 ， 我 们 将 导入 Pandas 并 使 用 别名 pd: 
In[2]: import pandas as pd 


这 种 简写 方式 将 贯穿 本 书 。 











关于 显示 内 置 文档 的 提醒 
当 你 阅读 本 章 时 ， 不 要 忘 了 IPython 可 以 快速 浏览 软件 包 的 内 容 (通过 Tab 键 补 全 功 
能 ) ， 以 及 各 种 也 数 的 文档 (使 用 ?)。( 如 果 你 需要 复习 相关 内 容 ， 请 参见 1.2 节 。) 


例如 ， 可 以 通过 按 下 Tab 键 显示 pandas 命名 空间 的 所 有 内 容 : 
In [3]: pd.<TAB> 

如 果 要 显示 Pandas 的 内 置 文档 ， 可 以 这 样 做 : 
In [4]: pd? 


详细 的 文档 请 参考 http://pandas.pydata.org/， 里 面 除 了 有 基础 教程 还 有 许多 有 用 
的 资源 。 








3.2 ” Pandas 对 象 简介 


如 果 从 底层 视角 观察 Pandas 对 象 ， 可 以 把 它们 看 成 增强 版 的 NumPy 结构 化 数组 ， 行 列 都 
不 再 只 是 简单 的 整数 索引 ， 还 可 以 带 上 标签 。 在 本 章 后 面 的 内 容 中 我 们 将 会 发 现 ， 虽 然 
Pandas 在 基本 数据 结构 上 实现 了 许多 便利 的 工具 、 方 法 和 功能 ， 但 是 后 面 将 要 介绍 的 每 
一 个 工具 、 方 法 和 功能 几乎 都 需要 我 们 理解 基本 数据 结构 的 内 部 细节 。 因 此 ， 在 深入 学 习 
Pandas 之 前 ， 先 来 看 看 Pandas 的 三 个 基本 数据 结构 : Series、DataFrame 和 Index。 


从 导入 标准 NumPy 和 Pandas 开始 : 


In[1]: import numpy as np 
import pandas as pd 









































3.2.1 Pandas 的 Series 对 象 
Pandas 的 Series 对 象 是 一 个 带 索 引 数 据 构 成 的 一 维 数组 。 可 以 用 一 个 数组 创建 Series 对 
象 ， 如 下 所 示 : 


In[2]: data = pd.Series([0.25, 0.5, 0.75, 1.0]) 
data 
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Out[2]: 0 0.25 


1 0.50 
2 9575 
3 1.00 


dtype: float64 


从 上 面 的 结果 中 ， 你 会 发 现 Series 对 象 将 一 组 数据 和 一 组 索引 绑 定 在 一 起 ， 我 们 可 以 通过 
values 属性 和 index 属性 获取 数据 。values 属性 返回 的 结果 与 NumPy 数组 类 似 : 


In[3]: data.values 











Out[3]: array([ 0.25, 0.5 , 0.75, 1. J]) 


index 属性 返回 的 结果 是 一 个 类 型 为 pd.Index 的 类 数组 对 象 ， 我 们 将 在 后 面 的 内 容 里 详细 
介绍 它 : 


In[4]: data.index 





Out[4]: RangeIndex(start=0, stop=4, step=1) 
和 NumPy 数组 一 样 ， 数 据 可 以 通过 Python 的 中 括号 索引 标签 获取 : 
In[5]: data[1] 
Out[5]: 0.5 
In[6]: data[1:3] 


Out[6]: 1 © 0.50 
2 OQ:73 
dtype: float64 


但 是 我 们 将 会 看 到 ，Pandas 的 Series 对 象 比 它 模仿 的 一 维 NumPy 数组 更 加 通用 、 灵 活 。 
1. Serise 是 通用 的 NumPy 数 组 

到 目前 为 止 ， 我们 可 能 觉得 Series 对 象 和 一 维 NumPy 数组 基本 可 以 等 价 交换 ， 但 两 者 
间 的 本 质 差 异 其 实 是 索引 : NumPy 数组 通过 隐 式 定义 的 整数 索引 获取 数值 ， 而 Pandas 的 
Series 对 象 用 一 种 显 式 定义 的 索引 与 数值 关联 。 

显 式 索 引 的 定义 让 Series 对 象 拥有 了 更 强 的 能 力 。 例 如 ， 索 引 不 再 仅仅 是 整数 ， 还 可 以 是 
任意 想 要 的 类 型 。 如 果 需 要 ， 完 全 可 以 用 字符 串 定义 索引 : 


In[7]: data = pd.Series([0.25，0.5，0.75，1.0]， 
index=['a'’, 'b', 'c', 'd']) 
































data 
Out[7]: 


1.00 
type: float64 


获取 数值 的 方式 与 之 前 一 样 : 


a 
b 
€ 0.75 
d 
d 

















In[8]: data['b'] 
Out[8]: 0.5 


也 可 以 使 用 不 连续 或 不 按 顺序 的 索引 


In[9]: data = pd.Series([0.25，0.5，0.75，1.0]， 
index=[2, 5, 3, 7]) 





data 


Out[9]: 0.25 


2 

5 0.50 

3 0.75 

7 1.00 
dtype: fLoat64 


In[10]: data[5] 
Out[10]: 0.5 


2. Series 是 特殊 的 字典 
你 可 以 把 Pandas 的 Series 对 象 看 成 一 种 特殊 的 Python 字典。 字典 是 一 种 将 任意 键 映射 到 
一 组 任意 值 的 数据 结构 ， 而 Series 对 象 其 实 是 一 种 将 类 型 键 映射 到 一 组 类 型 值 的 数据 结 
构 。 类 型 至 关 重 要 : 就 像 NumPy 数组 背后 特定 类 型 的 经 过 编译 的 代码 使 得 它 在 某 些 操作 
上 比 普通 的 Python 列表 更 加 高 效 一 样 ，Pandas Series 的 类 型 信息 使 得 它 在 某 些 操作 上 比 
Python 的 字典 更 高 效 。 


我 们 可 以 直接 用 Python 的 字典 创建 一 个 Series 对 象 ， 让 Series 对 象 与 字典 的 类 比 更 
加 清晰 : 


In[11]: population dict = {'California': 38332521, 
'Texas': 26448193 ， 
'New York': 19651127, 
'Florida': 19552860 ， 
'Illinois': 12882135} 
population = pd.Series(population_dict) 
population 





























Out[11]: California 38332521 














Florida 19552860 
Illinois 12882135 
New York 19651127 
Texas 26448193 
dtype: int64 
用 字典 创建 Series 对 象 时 ， 其 索引 默认 按照 顺序 排列 。 典 型 的 字典 数值 获取 方式 仍然 














有 效 : 
In[12]: population['California'] 
Out[12]: 38332521 


和 字典 不 同 ，Series 对 象 还 支持 数组 形式 的 操作 ， 比 如 切片 : 
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In[13]: population['California':'Illinois'] 


Out[13]: California 38332521 
Florida 19552860 
Illinois 12882135 
dtype: int64 


我 们 将 在 3.3 节 中 介绍 Pandas 取 值 与 切片 的 一 些 技巧 。 


0 
我 们 已 经 见 过 几 种 创建 Pandas 的 Series 对 象 的 方法 ， 都 是 像 这 样 的 形式 : 


>>> pd.Series(data, index=index) 
其 中 ，index 是 一 个 可 选 参数 ，data 参数 支持 多 种 数据 类 型 。 
例如 ，data 可 以 是 列表 或 NumPy 数组 ， 这 时 index 默认 值 为 整数 序列 : 


In[14]: pd.Series([2, 4, 6]) 














Out[14]: 0 2 
1 4 
2 6 
dtype: int64 


data 也 可 以 是 一 个 标量 ， 创 建 Series 对 象 时 会 重复 填充 到 每 个 索引 上 : 


In[15]: pd.Series(5, index=[100, 200,300]) 


Out[15]: 100 5 
200 5 
300 5 
dtype: int64 


data 还 可 以 是 一 个 字典 ，index 默认 是 排序 的 字典 键 : 


In[16]: pd.Series({2:'a', 1:'b', 3:'c'}) 


Out[16]: 1 b 
2 a 
3 € 
dtype: object 


一 种 形式 都 可 以 通过 显 式 指定 索引 筛选 需要 的 结果 : 


In[17]: pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) 
Out[17]: 3 € 

2 a 

dtype: object 


这 里 需要 注意 的 是 ，Series 对 象 只 会 保留 显 式 定义 的 键 值 对 。 


3.2.2 ” Pandas 的 DataFrame 对 象 


Pandas 的 另 一 个 基础 数据 结构 是 DataFrame。 和 上 一 节 介 绍 的 Series 对 象 一 样 ，DataFrame 























既 可 以 作为 一 个 通用 型 NumPy 数组 ， 也 可 以 看 作 特 殊 的 Python 字典 。 下 面 来 分 别 看 看 。 


1. DataFrame 是 通用 的 NumPy 数 组 

如 果 将 Series 类 比 为 带 灵 活 索 引 的 一 维 数组 ， 那 么 DataFrame 就 可 以 看 作 是 一 种 既 有 灵活 
的 行 索引 ， 又 有 灵活 列 名 的 二 维 数组 。 就 像 你 可 以 把 二 维 数组 看 成 是 有 序 排列 的 一 维 数组 
一 样 ， 你 也 可 以 把 DataFrame 看 成 是 有 序 排列 的 若干 Series 对 象 。 这 里 的 “排列 ” 指 的 是 
它们 拥有 共同 的 索引 。 


下 面 用 上 一 市 中 美国 五 个 州 面积 的 数据 创建 一 个 新 的 Series 来 进行 演示 : 


In[18]: 

area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297， 
'Florida': 170312, 'Illinois': 149995} 

area = pd.Series(area_dict) 

area 

















2 











Out[18]: California 423967 


Florida 170312 
Illinois 149995 
New York 141297 
Texas 695662 


dtype: int64 
再 结合 之 前 创建 的 population 的 Series 对 象 ， 用 一 个 字典 创建 一 个 包含 这 些 信息 的 二 维 
对 象 : 


In[19]: states = pd.DataFrame({'population': population, 
'area': area}) 








states 

Out[19]: area population 
California 423967 38332521 
Florida 170312 19552860 


Illinois 149995 12882135 
New York 141297 19651127 
Texas 695662 26448193 


和 Series 对 象 一 样 ，DataFrame 也 有 一 个 index 属性 可 以 获取 索引 标签 : 


In[20]: states.index 














Out[20]: 
Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object') 


另外 ，DataFrame 还 有 一 个 columns 属性 ， 是 存放 列 标签 的 Index 对 象 ; 
In[21]: states.coLumns 
Out[21]: Index(['area', 'population'], dtype='object') 
因此 DataFrame 可 以 看 作 一 种 通用 的 NumPy 二 维 数组 ， 它 的 行 与 列 都 可 以 通过 索引 获取 。 


2. DataFrame 是 特殊 的 字典 
与 series 类 似 ， 我 们 也 可 以 把 DataFrane 看 成 一 种 特殊 的 字典 。 字 典 是 一 个 键 映射 一 个 
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值 ， 而 DataFrame 是 一 列 映射 一 个 Series 的 数据 。 例 如 ， 通 过 'area' 的 列 属 性 可 以 返 
包含 面积 数据 的 Series 对 象 : 


In[22]: states['area'] 





回 


Out[22]: California 423967 


Florida 170312 
Illinois 149995 
New York 141297 
Texas 695662 


Name: area, dtype: int64 

这 里 需要 注意 的 是 ， 在 NumPy 的 二 维 数组 里 ，data[90] 返回 第 一 行 ， 而 在 DataFrame 中 ， 
data['co10'] 返回 第 一 列 。 因 此 ， 最 好 把 DataFrame 看 成 一 种 通用 字典 ， 而 不 是 通用 数 
组 ， 即 使 这 两 种 看 法 在 不 同情 况 下 都 是 有 用 的 。3.3 节 将 介绍 更 多 DataFrame 灵活 取 值 的 
方法 。 
3. 创建 DataFrame 对 象 
Pandas 的 DataFrame 对 象 可 以 通过 许多 方式 创建 ， 这 里 举 几 个 常用 的 例子 。 
(1) 通 过 单个 Series 对 象 创建 。DataFrame 是 一 组 Series 对 象 的 集合 ， 可 以 用 单个 series 

创建 一 个 单列 的 DataFrame: 


In[23]: pd.DataFrame(population, columns=['population']) 


























Out[23]: population 
California 38332521 
Florida 19552860 
Illinois 12882135 
New York 19651127 
Texas 26448193 


(2) 通 过 字典 列表 创建 。 任 何 元 素 是 字典 的 列表 都 可 以 变 成 DataFrame。 用 一 个 简单 的 列表 
综合 来 创建 一 些 数据 : 
In[24]: data = [{'a': i, 'b': 2 * i} 
for i in range(3)] 
pd.DataFrame(data) 





Out[24]: a b 
0 0 
“这 
4 


DP 


2 
即使 字典 中 有 些 键 不 存在 ，Pandas 也 会 用 缺失 值 NaN (不 是 数字 ，not a number) 来 表示 : 


In[25]: pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}]) 








Out[25]: a b c 
0 1.0 2 NaN 
1 NaN 3 4 


.0 


(3) 通 过 Series 对 象 字典 创建 。 就 像 之 前 见 过 的 那样 ，DataFrame 也 可 以 用 一 个 由 Series 
对 象 构 成 的 字典 创建 : 
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In[26]: pd.DataFrame({'population': population, 
'area': area}) 


Out[26]: area population 
California 423967 38332521 
Florida 170312 19552860 


Illinois 149995 12882135 
New York 141297 19651127 
Texas 695662 26448193 


(通过 NumPy 二 维 数组 创建 。 假 如 有 一 个 二 维 数 组 ， 就 可 以 创建 一 个 可 以 指定 行列 索引 
值 的 DataFrane。 如 有 果 不 指定 行列 索引 值 ， 那 么 行列 默认 都 是 整数 索引 值 ; 
In[27]: pd.DataFrame(np.random.rand(3，2)， 


columns=['foo', 'bar'], 
index=['a', 'b', 'c']) 

















Out[27]: foo bar 
a 0.865257 0.213169 
b 0.442759 0.108267 
Cc 0.047110 0.905718 


(5) 通 过 NumPy 结构 化 数组 创建 。2.9 节 曾 介绍 过 结构 化 数组 。 由 于 Pandas 的 DataFrame 
与 结构 化 数组 十 分 相似 ， 因 此 可 以 通过 结构 化 数组 创建 DataFrame: 


In[28]: A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')]) 
A 





Out[28]: array([(0, 0.0), (0, 0.0), (0, 0.0)], 
dtype=[('A', '<i8'), ('B', '<f8')]) 


In[29]: pd.DataFrame(A) 


Out[29]: A B 
0 0 0.0 
1 0 0.0 
2 0 0.0 


3.2.3 Pandas 的 Index 对 象 


我 们 已 经 发 现 ，Series 和 DataFrame 对 象 都 使 用 便于 引用 和 调整 的 显 式 索引 。Pandas 的 
Index 对 象 是 一 个 很 有 趣 的 数据 结构 ， 可 以 将 它 看 作 是 一 个 不 可 变数 组 或 有 序 集 合 (实际 
上 是 一 个 多 集 ， 因 为 Index 对 象 可 能 会 包含 重复 值 )。 这 两 种 观点 使 得 Index 对 象 能 呈现 一 
些 有 趣 的 功能 。 让 我 们 用 一 个 简单 的 整数 列表 来 创建 一 个 Index 对 象 : 


In[30]: ind = pd.Index([2, 3, 5, 7, 11]) 
ind 


























Out[30]: Int64Index([2, 3, 5, 7, 11], dtype='int64') 


1. 将 Index 看 作 不 可 变数 组 
Index 对 象 的 许多 操作 都 像 数 组 。 例 如 ， 可 以 通过 标准 Python 的 取 值 方法 获取 数值 ， 也 可 
以 通过 切片 获取 数值 : 
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In[31]: ind[1] 

Out[31]: 3 

In[32]: ind[::2] 

Out[32]: Int64Index([2, 5, 11], dtype='int64') 


Index 对 象 还 有 许多 与 NumPy 数组 相似 的 属性 : 


In[33]: print(ind.size, ind.shape, ind.ndim, ind.dtype) 





5 (5,) 1 int64 


Index 对 象 与 NumPy 数组 之 间 的 不 同 在 于 ，Index 对 象 的 索引 是 不 可 变 的 ， 也 就 是 说 不 能 
寸 通常 的 方式 进行 调整 


In[34]: ind[1] = 





TypeError Traceback (most recent CaLL last) 


<ipython-input-34-40e631c82e8a> in <module>() 
----> 1 ind[1] = 


/Users/jakevdp/anaconda/lib/python3.5/site-packages/pandas/indexes/base.py ... 


1243 
1244 def _ setitem (self, key, value): 
-> 1245 raise TypeError("Index does not support mutable operations") 
1246 
1247 def _ getitem (self, key): 


TypeError: Index does not support mutable operations 


Index 对 象 的 不 可 变 特征 使 得 多 个 DataFrame 和 数组 之 间 进 行 索引 共享 时 更 加 安全 ， 尤 其 古 
可 以 避免 因 修 改 索 引 时 粗心 大 意 而 导致 的 副作用 。 


2. 将 Index 看 作 有 序 集合 

Pandas 对 象 被 设计 用 于 实现 许多 操作 ， 如 连接 (join) 数据 集 ， 其 中 会 涉及 许多 集合 操作 。 
Index 对 象 遵循 Python 标准 库 的 集合 (set) 数据 结构 的 许多 习惯 用 法 ， 包 括 并 集 、 交 集 、 
差 集 等 


In[35]: indA 
indB 

















pd.Index([1, 3, 5, 7, 9]) 
pd.Index([2, 3, 5, 7, 11]) 


In[36]: indA & indB # 交集 
Out[36]: Int64Index([3, 5, 7], dtype='int64') 


In[37]: indA | indB # 并 集 








Out[37]: Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64') 
In[38]: indA ^ indB # 异 或 


Out[38]: Int64Index([1, 2, 9, 11], dtype='int64') 





这 些 操作 还 可 以 通过 调用 对 象 方法 来 实现 ， 例 如 indA.intersection(indB)。 


3.3 ”数据 取 值 与 选择 





第 2 章 具 体 介 绍 了 获取 、 设 置 、 调 整 NumPy 数组 数值 的 方法 与 工具 ， 包 括 取 值 操作 (如 











arr[2，1])、 切 片 操作 (如 arr[:，1:5])、 掩 码 操作 (如 arr[arr > 0])、 


花哨 的 索引 操作 


(如 arr[6，[1，5]])， 以 及 组 合 操作 (如 arr[:，[1，5]])。 下 面 介 绍 Pandas 的 Series 和 
DataFrame 对 象 相 似 的 数据 获取 与 调整 操作 。 如 果 你 用 过 NumPy 操作 模式 ， 就 会 非常 熟悉 


Pandas 的 操作 模式 ， 只 是 有 几 个 细节 需要 注意 一 下 。 








我 们 将 从 简单 的 一 维 Series 对 象 开 始 ， 然 后 再 用 比较 复杂 的 二 维 DataFrame 对 象 进行 














演示 。 


3.3.1 Series 数 据 选 择 方法 





如 前 所 述 ，Series 对 象 与 一 维 NumPy 数组 和 标准 Python 字典 在 许多 方 盏 











i 都 一 样 。 只 要 牢 





牢记 住 这 两 个 类 比 ， 就 可 以 帮助 我 们 更 好 地 理解 Series 对 象 的 数据 索引 与 选择 模式 。 





1. 将 Series 看 作 字 暴 
和 字典 一 样 ，Series 对 象 提供 了 键 值 对 的 映射 ; 
In[1]: ;import pandas as pd 


data = pd.Series([0.25，0.5，0.75，1.0]， 
index=['a', 'b', 'c', 'd']) 

















data 


Out[1]: 0.25 


a 
b 0.50 
C 0.75 
d 1.00 
dtype: float64 


In[2]: data['b'] 
Out[2]: 0.5 
我 们 还 可 以 用 Python 字典 的 表达 式 和 方法 来 检测 键 /索引 和 值 : 


In[3]: 'a' in data 





Out[3]: True 


In[4]: data.keys() 
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Out[4]: Index(['a', 'b', 'c', 'd'], dtype='object') 
In[5]: list(data.items()) 


Out[5]: [('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)] 





Series 对 象 还 可 以 用 字典 语法 调整 数据 。 就 像 你 可 以 通过 增加 新 的 键 扩展 字典 一 样 ， 你 也 
可 以 通过 增加 新 的 索引 值 扩 展 Series ; 





In[6]: data['e'] = 1.25 
data 
Out[6]: a 0.25 
b 0.50 
€ O75 
d 1.00 
e 1.25 
dtype: float64 


Series 对 象 的 可 变性 是 一 个 非常 方便 的 特性 : Pandas 在 底层 已 经 为 可 能 发 生 的 内 存 布 局 和 
数据 复制 自动 决策 ， 用 户 不 需要 担心 这 些 问 题 。 

2. 将 Series 看 作 一 维 数组 

Series 不 仅 有 着 和 字典 一 样 的 接口 ， 而 且 还 具备 和 NumPy 数组 一 样 的 数组 数据 选择 功能 ， 
包括 索引 、 掩 码 、 花 哨 的 索引 等 操作 ， 有 具体 示例 如 下 所 示 : 














In[7]: # 将 显 式 索引 作为 切片 


data['a':'c'] 





Out[7]: a 0.25 
b 0.50 
C O75 
dtype: float64 
In[8]: # 将 隐 式 整数 索引 作为 切片 
data[0:2] 
Out[8]: a 0.25 


b 0.50 
dtype: float64 


In[9]: # 掩 码 
data[(data > 0.3) & (data < 0.8)] 


Out[9]: b 0.50 
C 85 
dtype: fLoat64 


In[10]: # 花哨 的 索引 
data[['a', 'e']] 


Out[10]: a 0.25 
e 1.25 
dtype: float64 
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在 以 上 示例 中 ,切片 是 绝 大 部 分 混乱 之 源 。 需 要 注意 的 是 ， 当 使 用 显 式 索 引 ( 即 
data['a':'c']) 作 切 片 时 ， 结 果 包 含 最 后 一 个 索引 ; 而 当 使 用 隐 式 索引 ( 即 data[0:2]) 
作 切 片 时 ， 结 果 不 包含 最 后 一 个 索引 。 

3. 索引 器 : Loc、iLLoc 和 ix 

这 些 切片 和 取 值 的 习惯 用 法 经 常会 造成 混乱 。 例 如 ， 如 果 你 的 Series 是 显 式 整数 索引 ， 那 
么 data[1] 这 样 的 取 值 操作 会 使 用 显 式 索引 ， 而 data[1:3] 这 样 的 切片 操作 却 会 使 用 隐 式 
索引 。 


In[11]: data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5]) 
data 
































Out[11]: a 


1 
3 
5 所 
dtype: object 


In[12]: # 取 值 操作 是 显 式 索引 
data[1] 


Out[12]: 'a' 


In[13]: # 切片 操作 是 隐 式 索引 
data[1:3] 


Out[13]: 3 b 
5 C 
dtype: object 














由 于 整数 索引 很 容易 造成 混淆 ， 所 以 Pandas 提供 了 一 些 索引 器 (indexer) 属性 来 作为 取 值 
的 方法 。 它 们 不 是 series 对 象 的 国 数 方法 ， 而 是 暴露 切片 接口 的 属性 。 
第 一 种 索引 器 是 loc 属性 ， 表 示 取 值 和 切片 都 是 显 式 的 : 


In[14]: data.Loc[1] 








Out[14]: 'a' 
In[15]: data.Loc[1:3] 
Out[15]: 1 a 

3 b 

dtype: object 


第 二 种 是 iloc 属性 ， 表 示 取 值 和 切片 都 是 Python 形式 的 : 隐 式 索引 : 
In[16]: data.iloc[1] 





Out[16]: 'b' 


In[17]: data.iloc[1:3] 














注 1: 从 0 开始 ， 左 闭 右 开 区 间 。 一 一 译 者 注 
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Out[17]: 3 b 
5 C 
dtype: object 





第 三 种 取 值 属性 是 ix， 它 是 前 两 种 索引 器 的 混合 形式 ， 在 Series 对象 中 ix 等 价 于 标准 的 














[] (Python 列表 ) 取 值 方式 。ix 索引 器 主要 月 





由 于 DataFrame 对 象 ， 后 面 将 会 介绍 。 


Python 代码 的 设计 原则 之 一 是 “ 显 式 优 于 隐 式 ”。 使 用 toc 和 itoc 可 以 让 代码 更 容易 维护 ， 
可 读 性 更 高 。 特 别 是 在 处 理 整 数 索 引 的 对 象 时 ， 我 强烈 推荐 使 用 这 两 种 索引 器 。 它 们 既 可 
以 让 代码 阅读 和 理解 起 来 更 容易 ， 也 能 避免 因 误 用 索引 /切片 而 产生 的 小 bug。 





3.3.2 ”DataFrame 数 据 选 择 方法 











前 面 曾 提 到 ，DataFrame 在 有 些 方 








掉 像 二 维 或 结构 化 数组 ， 在 有 些 方 下 














的 若干 Series 对 象 构成 的 字典 。 这 两 种 类 比 可 以 


选择 方法 。 
1. 将 DataFrame 看 作 字 典 


第 一 种 类 比 是 把 DataFrame 当 作 一 个 由 若干 series 对 象 构成 的 字典 。 让 我 们 用 之 前 的 美 





五 州 面积 与 人 口 数 据 来 演示 : 


In[18]: area = pd.Series({'California': 
'New York': 141297, 

'Illinois': 149995}) 

ifornia': 
'New York': 19651127 ， 

'Illinois': 12882135}) 

data = pd.DataFrame({'area':area, 'pop':pop}) 


pop = pd.Series({'Cal 


data 
Out[18]: area 
California 423967 
Florida 170312 


Illinois 149995 
New York 141297 
Texas 695662 


两 个 Series 分 别 构成 DataFrame 的 一 列 ， 可 以 通过 对 列 名 进行 字典 


的 取 值 获取 数据 : 


In[19]: data['area'] 


Out[19]: California 423967 


Florida 170312 
Illinois 149995 
New York 141297 
Texas 695662 


Name: area, dtype: i 








同样 ， 也 可 以 用 属性 形式 (attribute-style) 选择 





pop 
38332521 
19552860 
12882135 
19651127 
26448193 


nt64 











i 又 像 一 个 共享 索引 








'Florida': 170312 ， 


纯 字符 串 列 名 的 数据 ; 





5 助 我 们 更 好 地 掌握 这 种 数据 结构 的 数据 





el 


'; 26448193 ， 
": 19552860 ， 


式 (dictionary-style) 
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In[20]: data.area 


Out[20]: California 423967 


Florida 170312 
Illinois 149995 
New York 141297 
Texas 695662 


Name: area, dtype: int64 








对 同一 个 对 象 进行 属性 形式 与 字典 形式 的 列 数据 ， 结 果 是 相同 的 : 


In[21]: data.area is data[ 'area '] 


Out[21]: True 


虽然 属性 形式 的 数据 选择 方法 很 方便 ， 但 是 它 并 不 是 通 月 





目的 。 如 果 列 名 不 是 纯 字 符 串 ， 或 


者 列 名 与 DataFrame 的 方法 同名 ， 那 么 就 不 能 用 属性 索引 。 例 如 ，DataFrame 有 一 个 pop() 
方法 ， 如 果 用 data.pop 就 不 会 获取 'pop' 列 ， 而 是 显示 为 方法 : 


In[22]: data.pop is data['pop'] 


Out[22]: False 


另外 ， 还 应 该 避免 对 用 属性 形式 选择 的 列 直接 赋值 ( 即 可 以 用 data[ 'pop'] = z， 但 不 要 用 


data.pop = z)。 


和 前 面 介 绍 的 Series 对 象 一 样 ， 还 可 以 月 








字典 形式 的 语法 调整 对 象 ， 如 果 要 增加 一 列 可 以 


In[23]: data[ 'density'] = data['pop'] / data['area'] 


这 样 做 : 
data 
Out[23] : area 
California 423967 
Florida 170312 


Illinois 149995 
New York 141297 
Texas 695662 


pop 
38332521 
19552860 
12882135 
19651127 
26448193 


density 
90.413926 

114.806121 
85.883763 

139.076746 
38.018740 


这 里 演示 了 两 个 Series 对 象 算术 运算 的 简便 语法 ， 我 们 将 在 3.4 节 进 行 详细 介绍 。 


2. 将 DataFrame 看 作 二 维 数 组 


前 面 曾 提 到 ， 可 以 把 DataFrame 看 成 是 一 个 增强 版 的 二 维 数 组 ， 用 values 属性 按 行 查看 数 


组 数据 : 


In[24]: data.values 


Out[24]: array([[ 4.23967000e+05， 
1.70312000e+05 ， 

[ 1.49995000e+05, 

[ 1.41297000e+05， 

[ 6.95662000e+05， 


理解 了 这 一 点 ， 就 可 以 把 许多 数组 操作 方式 用 在 DataFrame 上 。 例 如 ， 可 以 对 DataFrame 





3.83325210e+07， 9.04139261e+01] ， 
1.95528600e+07， 1.14806121e+02] ， 
1.28821350e+07， 8.58837628e+01] ， 
1.96511270e+07， 1.39076746e+02] ， 
2.64481930e+07， 3.80187404e+01]]) 
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进行 行列 转 置 : 


In[25]: data.T 


Out[25] : 

California Florida Illinois New York Texas 
area 4.239670e+05 1.703120e+05 1.499950e+05 1.412970e+05 6.956620e+05 
pop 3.833252e+07 1.955286e+07 1.288214e+07 1.965113e+07 2.644819e+07 


density 9.041393e+01 1.148061e+02 8.588376e+01 1.390767e+02 3.801874e+01 


通过 字典 形式 对 列 进行 取 值 显然 会 限制 我 们 把 DataFrane 作为 NumPy 数组 可 以 获得 的 能 
力 ， 尤 其 是 当 我 们 在 DataFrame 数组 中 使 用 单个 行 索引 获取 一 行 数据 时 : 


In[26]: data.values[0] 








Out[26]: array([ 4.23967000e+05, 3.83325210e+07, 9.04139261e+g1]) 


而 获取 一 列 数据 就 需要 向 DataFrame 传递 单个 列 索 引 : 


In[27]: data['area'] 


Out[27]: California 423967 


Florida 170312 
Illinois 149995 
New York 141297 
Texas 695662 


Name: area, dtype: int64 
因此 ， 在 进行 数组 形式 的 取 值 时 ， 我 们 就 需要 用 另 一 种 方法 一 一 前 面 介绍 过 的 Pandas 索引 
器 loc、iloc 和 ix 了 。 通 过 iloc 索引 器 ， 我 们 就 可 以 像 对 待 NumPy 数组 一 样 索 引 Pandas 
的 底层 数组 (Python 的 隐 式 索引 ) ，DataFrame 的 行列 标签 会 自动 保留 在 结果 中 : 


In[28]: data.iloc[:3, :2] 






































Out[28]: area pop 
California 423967 38332521 
Florida 170312 19552860 


Illinois 149995 12882135 


In[29]: data.loc[:'Illinois', :'pop'] 


Out[29]: area pop 
California 423967 38332521 
Florida 170312 19552860 


Illinois 149995 12882135 
使 用 ix 索引 器 可 以 实现 一 种 混合 效果 : 


In[30]: data.ix[:3, :'pop'] 

















Out[30]: area pop 
California 423967 38332521 
Florida 170312 19552860 


Illinois 149995 12882135 


需要 注意 的 是 ，ix 索引 器 对 于 整数 索引 的 处 理 和 之 前 在 Series 对 象 中 介绍 的 一 样 ， 都 容 
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易 让 人 混 请 。 
任何 用 于 处 理 NumPy 形式 数据 的 方法 都 可 以 用 于 这 些 索 引 器 。 例 如 ， 可 以 在 loc 索引 器 
中 结合 使 用 掩 码 与 花哨 的 索引 方法 : 

In[31]: data.loc[data.density > 100, ['pop', 'density']] 

Out[31] : pop density 


Florida 19552860 114.806121 
New York 19651127 139.076746 


任何 一 种 取 值 方法 都 可 以 用 于 调整 数据 ， 这 一 点 和 NumPy 的 常用 方法 是 相同 的 : 


In[32]: data.iloc[0, 2] = 90 


data 
Out[32]: area pop density 
California 423967 38332521 90.000000 
Florida 170312 19552860 114.806121 


Illinois 149995 12882135 85.883763 

New York 141297 19651127 139.076746 

Texas 695662 26448193 38.018740 
如 果 你 想 熟 练 使 用 Pandas 的 数据 操作 方法 ， 我 建议 你 花 点 时 间 在 一 个 简单 的 DataFrame 上 
练习 不 同 的 取 值 方法 ， 包 括 查看 索引 类 型 、 切 片 、 掩 码 和 花哨 的 索引 操作 。 
3. 其 他 取 值 方法 
还 有 一 些 取 值 方法 和 前 面 介绍 过 的 方法 不 太一 样 。 它 们 虽然 看 着 有 点 奇怪 ,但 是 在 实践 中 
还 是 很 好 用 的 。 首 先 ， 如 果 对 单个 标签 取 值 就 选择 列 ， 而 对 多 个 标签 用 切片 就 选择 行 : 


In[33]: data['Florida':'Illinois'] 


























Out[33] : area pop density 
Florida 170312 19552860 114.806121 
Illinois 149995 12882135 85.883763 


切片 也 可 以 不 用 索引 值 ， 而 直接 用 行 数 来 实现 : 
In[34]: data[1:3] 
Out[34]: area pop density 


Florida 170312 19552860 114.806121 
Illinois 149995 12882135 85.883763 


与 之 类 似 ， 掩 码 操作 也 可 以 直接 对 每 一 行进 行 过 滤 ， 而 不 需要 使 用 Loc 索引 器 : 
In[35]: data[data.density > 100] 


Out[35]: area pop density 
Florida 170312 19552860 114.806121 
New York 141297 19651127 139.076746 


这 两 种 操作 方法 其 实 与 NumPy 数组 的 语法 类 似 ， 虽 然 它 们 与 Pandas 的 操作 习惯 不 太一 致 ， 
但 是 在 实践 中 非常 好 用 。 
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3.4 Pandas 数 值 运算 方法 


NumPy 的 基本 能 力 之 一 是 快速 对 每 个 元 素 进行 运算 ， 既 包括 基本 算术 运算 〈 加 、 减 、 乘 、 
除 )， 也 包括 更 复杂 的 运算 (三角 函数 、 指 数 函 数 和 对 数 函 数 等 )。Pandas 继承 了 NumPy 
的 功能 ， 在 2.3 布 介 绍 过 的 通用 函数 是 关键 。 


但 是 Pandas 也 实现 了 一 些 高 效 技巧 : 对 于 一 元 运算 ( 像 函 数 与 三 角 函 数 )， 这 些 通 用 函 
数 将 在 输出 结果 中 保留 索引 和 列 标签 ， 而 对 于 二 元 运算 (如 加 法 和 乘法 )，Pandas 在 传递 
通用 函数 时 会 自动 对 齐 索 引进 行 计算 。 这 就 意味 着 ,保存 数据 内 容 与 组 合 不 同 来 源 的 数 
据 一 一 两 处 在 NumPy 数组 中 都 容易 出 错 的 地 方 变 成 了 Pandas 的 杀手 铀 。 后 面 还 会 介 
绍 一 些 关 于 一 维 series 和 二 维 DataFrame 的 便捷 运算 方法 。 


3.4.1 通用 函数 : 保留 索引 


因为 Pandas 是 建立 在 NumPy 基础 之 上 的 ， 所 以 NumPy 的 通用 函数 同样 适用 于 Pandas 的 
Series 和 DataFrame 对 象 。 让 我 们 用 一 个 简单 的 Series 和 DataFrame 来 演示 : 


In[1]: import pandas as pd 
import numpy as np 





















































In[2]: rng = np.random.RandomState(42) 
ser = pd.Series(rng.randint(0, 10, 4)) 
ser 
Out[2]: 0 6 
1 3 
2 7 
3 4 
dtype: int64 


In[3]: df = pd.DataFrame(rng.randint(0, 10, (3, 4)), 
columns=['A', 'B', 'C', 'D']) 
df 


Out[3]: 


1 
2 


如 果 对 这 两 个 对 象 的 其 中 一 个 使 用 NumPy 通用 函数 ， 生 成 的 结果 是 另 一 个 保留 索引 的 
Pandas 对 象 ; 


A 
0 6 
7 
7 


NO 中 
WWODAM 


于 二 aD 





























In[4]: np.exp(ser) 


out[4]: 0 403.428793 
1 20.085537 
2 1096.633158 
3 54.598150 
dtype: float64 


或 者 ， 再 做 一 个 比较 复杂 的 运算 





In[5]: np.sin(df * np.pi / 4) 


Out[5]: A B 人 D 
1.000000 7.071068e-01 1.000000 -1.000000e+00 
-0.707107 1.224647e-16 0.707107 -7.071068e-01 
0.707107 1.000000e+00 -0.707107 1.224647e-16 


任何 一 种 在 2.3 市 介绍 过 的 通用 函数 都 可 以 按照 类 似 的 方式 使 用 。 


3.4.2 通用 函数 : 索引 对 齐 

当 在 两 个 Series 或 DataFrame 对 象 上 进行 二 元 计算 时 ，Pandas 会 在 计算 过 程 中 对 齐 两 个 对 
象 的 索引 。 当 你 处 理 不 完整 的 数据 时 ， 这 一 点 非常 方便 ， 我们 将 在 后 面 的 示例 中 看 到 。 

1. Series 索 引 对 齐 
来 看 一 个 例子 ， 假 如 你 要 整合 两 个 数据 源 的 数据 ， 其 中 一 个 是 美国 面积 最 大 的 三 个 州 的 面 
积 数据 ， 另 一 个 是 美国 人 口 最 多 的 三 个 州 的 人 口 数 据 ; 


In[6]: area = pd.Series({'Alaska': 1723337, 'Texas': 695662， 
'California': 423967}, name='area') 

population = pd.Series({'California': 38332521, 'Texas': 26448193， 

'New York': 19651127}, name='population') 


来 看 看 如 采用 人 口 除 以 面积 会 得 到 什么 样 的 结果 : 


In[7]: population / area 




































































Out[7]: ALaska NaN 
California 90.413926 
New York NaN 
Texas 38.018740 


dtype: float64 


结果 数组 的 索引 是 两 个 输入 数组 索引 的 并 集 。 我 们 也 可 以 用 Python 标准 库 的 集合 运算 法 则 
来 获得 这 个 索引 : 


In[8]: area.index | population.index 





Out[8]: Index(['Alaska', 'California', 'New York', 'Texas'], dtype='object') 


对 于 缺失 位 置 的 数据 ，Pandas 会 用 NaN 填充 ， 表示“ 此 处 无 数 ”。 这 是 Pandas 表示 缺失 值 
的 方法 (详情 请 参见 3.5 布 关于 缺失 值 的 介绍 )。 这 种 索引 对 齐 方式 是 通过 Python 内 置 的 
集合 运算 规则 实现 的 ， 任 何 缺 失 值 默认 都 用 NaN 填充 : 














In[9]: A = pd.Series([2，4，6]，index=[0，1，2]) 
B = pd.Series([1, 3, 5], index=[1, 2, 3]) 
A+B 


Out[9]: 0 NaN 


上 5.0 
2 9.0 
3 NaN 


dtype: float64 
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如 果 用 NaN 值 不 是 我 们 想 要 的 结果 ， 那 么 可 以 用 适当 的 对 象 方 法 代替 运算 符 。 例 如 ， 
A.add(B) 等 价 于 A + B， 也 可 以 设置 参数 自 定义 A 或 8 缺 失 的 数据 : 


In[10]: A.add(B, fill_value=0) 





Out[10]: 0 2 
1 5 

2 9 
5 


2. DataFrame 索 引 对 齐 
在 计算 两 个 DataFrame 时 ， 类 似 的 索引 对 齐 规则 也 同样 会 出 现在 共同 (并 集 ) 列 中 : 


In[11]: A = pd.DataFrame(rng.randint(0, 20, (2, 2)),， 
columns=list('AB')) 





A 


Out[11]: A B 
0 1 11 
1 5 1 


In[12]: B = pd.DataFrame(rng.randint(0, 10, (3, 3)), 
columns=list('BAC')) 
B 


Out[12]: 


1 


B 
0 4 
5 
2 9 


Doorr 
中 口 避 站 


In[13]: A + B 


Out[13] : 





你 会 发 现 ， 两 个 对 象 的 行列 索引 可 以 是 不 同 顺序 的 ， 结 果 的 索引 会 自动 按 顺序 排列 。 在 
Series 中， 我 们 可 以 通过 运算 符 方法 的 fill_value 参数 自 定义 缺失 值 。 这 里 ， 我 们 将 用 A 
中 所 有 值 的 均值 来 填充 缺失 值 (计算 A 的 均值 需要 用 stack 将 二 维 数组 压缩 成 一 维 数组 ) : 


In[14]: fill = A.stack().mean() 
A.add(B, fill_value=fill) 

















Out[14]: 











表 3-1: Python 运算 符 与 Pandas 方 法 的 映射 关系 
Python 运算 符 Pandas 方 法 
+ add() 
sub()、subtract() 
mul()、 multiply() 
/ truediv()、div()、divide() 
// floordiv() 
% mod() 
3 pow() 


3.4.3 函数 : DataFrame 与 Series 的 运算 


我 们 经 常 需要 对 一 个 DataFrame 和 一 个 Series 进行 计算 ,行列 对 齐 方 式 与 之 前 类 似 。 也 就 
es DataFrame 和 Series 的 运算 规则 ， 与 NumPy 中 二 维 数组 与 一 维 数 组 的 运算 规则 是 
一 样 的 。 来 看 一 个 常见 运算 ， 让 一 个 二 维 数组 减 去 自身 的 一 行 数据 : 





In[15]: A = rng.randint(10, size=(3, 4)) 
A 
Out[15]: array([[3, 8, 2, 4]， 
[2, 6, 4, 8], 
[6, 1, 3, 8]]) 
In[16]: A - A[0] 
Out[16]: array([[ 0， 0， 0]， 
[- dy SS 2 2， 4]， 
[ 35 7， 1， 4]]) 


根据 NumPy 的 广播 规则 (详情 请 参见 2.5 节 )， 让 二 维 数组 减 自身 的 一 行 数据 会 按 行 计 算 。 


在 Pandas 里 默认 也 是 按 行 运算 的 : 











In[17]: df = pd.DataFrame(A, columns=list('QRST')) 
df - df.iloc[0] 
Out[17]: Q R SI 
0 0 0 0 0 
1-1-2 2 4 
2 3-7 1 4 
如 果 你 想 按 列 计算 ， 那 么 就 需要 利用 前 面 介绍 过 的 运算 符 方法 ， 通 过 axis 参数 设置 : 
In[18]: df.subtract(df['R'], axis=0) 
Out[18]: Q RSTIT 
0-5 0-.6 -4 
1-4 0-2 2 
2 0 2 


你 会 发 现 DataFrame / Series 的 运算 与 前 面 介绍 的 运算 一 样 ， 结 果 的 索引 都 会 自动 对 齐 : 
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In[19]: halfrow = df.iloc[0, ::2] 
halfrow 


Out[19]: Q 3 
S 2 
Name: 0, dtype: int64 


In[20]: df - halfrow 


Out[20]: 


这 些 行列 索引 的 保留 与 对 齐 方法 说 明 Pandas 在 运算 时 会 一 直 保 存 这 些 数 据 内 容 ， 从 而 避免 
在 处 理 数 据 类 型 有 差异 和 /或 维度 不 一 致 的 NumPy 数组 时 可 能 遇 到 的 问题 。 


3.5 ”人 处理 缺失 值 


大 多 数 教程 里 使 用 的 数据 与 现实 工作 中 的 数据 的 区 别 在 于 后 者 很 少 是 干净 整齐 的 ， 许 多 
目前 流行 的 数据 集 都 会 有 数据 缺失 的 现象 。 更 为 其 者 ， 处 理 不 同 数据 源 缺 失 值 的 方法 还 
不 同 。 


我 们 将 在 本 节 介 绍 一 些 处 理 缺 失 值 的 通用 规则 ，Pandas 对 缺失 值 的 表现 形式 ， 并 演示 
Pandas 自 带 的 几 个 处 理 缺 失 值 的 工具 的 用 法 。 本 节 以 及 全 书 涉及 的 缺失 值 主 要 有 三 种 形 
式 : null、NaN 或 NA。 


3.5.1 选择 处 理 缺 失 值 的 方法 


在 数据 表 或 DataFrame 中 有 很 多 识别 缺失 值 的 方法 。 一 般 情 况 下 可 以 分 为 两 种 : 一 种 方法 
是 通过 一 个 覆盖 全 局 的 掩 码 表示 缺失 值 ， 另 一 种 方法 是 用 一 个 标签 值 (sentinel value) 表 
示 缺 失 值 。 


在 掩 码 方 法 中 ， 掩 码 可 能 是 一 个 与 原 数 组 维度 相同 的 完整 布尔 类 型 数组 ， 也 可 能 是 用 一 个 
比特 (0 或 1) 表示 有 缺失 值 的 局 部 状态 。 


在 标签 方法 中 ， 标 签 值 可 能 是 具体 的 数据 〈 例 如 用 -9999 表示 缺失 的 整数 )， 也 可 能 是 些 
极 少 出 现 的 形式 。 另 外 ， 标 签 值 还 可 能 是 更 全 局 的 值 ， 比 如 用 NaN (不 是 一 个 数 ) 表示 缺 
失 的 浮 点 数 ， 它 是 IEEE 浮 点 数 规范 中 指定 的 特殊 字符 。 


使 用 这 两 种 方法 之 前 都 需要 先 综合 考量 使 用 单独 的 掩 码 数组 会 额外 出 现 一 个 布尔 类 型 数 
组 ， 从 而 增加 存储 与 计算 的 负担 ， 而 标签 值 方法 缩小 了 可 以 被 表示 为 有 效 值 的 范围 ， 可 能 
需要 在 CPU 或 GPU 算术 逻辑 单元 中 增加 额外 的 (往往 也 不 是 最 优 的 ) 计算 逻辑 。 通 常 使 
用 的 NaN 也 不 能 表示 所 有 数据 类 型 。 

大 多 数 情况 下 ， 都 不 存在 最 佳 选择 ， 不 同 的 编程 语言 与 系统 使 用 不 同 的 方法 。 例 如 ，R 语 
言 在 每 种 数据 类 型 中 保留 一 个 比特 作为 缺失 数据 的 标签 值 ， 而 SciDB 系统 会 在 每 个 单元 后 
看 加 一 个 额外 的 字 节 表示 NA 状态 。 




























































































3.5.2 ”Pandas 的 缺失 值 


Pandas 里 处 理 缺 失 值 的 方式 延续 了 NumPy 程序 包 的 方式 ， 并 没有 为 浮 点 数据 类 型 提供 内 
置 的 NA 作为 缺失 值 。 


Pandas 原本 也 可 以 按照 R 语言 采用 的 比特 模式 为 每 一 种 数据 类 型 标注 缺失 值 ， 但 是 这 种 方 
法 非常 笨拙 。R 语言 包含 4 种 基本 数据 类 型 ， 而 NumPy 支持 的 类 型 远 超 4 种 。 例 如 ，R 语 
言 只 有 一 种 整数 类 型 ， 而 NumPy 支持 14 种 基本 的 整数 类 型 ， 可 以 根据 精度 、 符 号 、 编 码 
类 型 按 需 选择 。 如 有 果 要 为 NumPy 的 每 种 数据 类 型 都 设置 一 个 比特 标注 缺失 值 ， 可 能 需要 
为 不 同类 型 的 不 同 操作 耗费 大 量 的 时 间 与 精力 ， 甚 工作 量 几乎 相当 于 创建 一 个 新 的 NumPy 
程序 包 。 另 外 ， 对 于 一 些 较 小 的 数据 类 型 (例如 8 位 整 型 数据 )， 牺 牲 一 个 比特 作为 缺失 
值 标注 的 掩 码 还 会 导致 其 数据 范围 缩小 。 


当然 ，NumPy 也 是 支持 掩 码 数据 的 ， 也 就 是 说 可 以 用 一 个 布尔 掩 码 数组 为 原 数组 标注 “无 
缺失 值 ”或 “有 缺失 值 >。Pandas 也 集成 了 这 个 功能 ， 但 是 在 存储 、 计 算 和 编码 维护 方面 
都 需要 耗费 不 必要 的 资源 ， 因 此 这 种 方式 并 不 可 取 。 

综合 考虑 各 种 方法 的 优 缺 点 ，Pandas 最 终 选 择 用 标签 方法 表示 缺失 值 ， 包 括 两 种 Python 原 
有 的 缺失 值 : 浮 点 数据 类 型 的 NaN 值 ， 以 及 Python 的 None 对 象 。 后 面 我 们 将 会 发 现 ， 虽 
然 这 么 做 也 会 有 一 些 副作用 ， 但 是 在 实际 运用 中 的 效果 还 是 不 错 的 。 

1. None: Python 对 象 类 型 的 缺失 值 

Pandas 可 以 使 用 的 第 一 种 缺失 值 标签 是 None， 它 是 一 个 Python 单 体 对 象 ， 经 常 在 代码 中 
表示 人 缺失 值 。 由 于 None 是 一 个 Python 对 象 ， 所 以 不 能 作为 任何 NumPy / Pandas 数组 类 型 
的 缺失 值 ， 只 能 用 于 'object ' 数组 类 型 ( 即 由 Python 对 象 构成 的 数组 ) : 


In[1]: import numpy as np 
import pandas as pd 




































































In[2]: vals1 = np.array([1, None, 3, 4]) 
vals1 


Out[2]: array([1, None, 3, 4], dtype=object) 


这 里 dtype=object 表示 NumPy 认为 由 于 这 个 数组 是 Python 对 象 构成 的 ， 因 此 将 其 类 型 
判断 为 object。 虽 然 这 种 类 型 在 某 些 情景 中 非常 有 用 ， 对 数据 的 任何 操作 最 终 都 会 在 
Python 层面 完成 ， 但 是 在 进行 常见 的 快速 操作 时 ， 这 种 类 型 比 其 他 原生 类 型 数组 要 消耗 
更 多 的 资源 : 
In[3]: for dtype in ['object', 'int']: 

print("dtype =", dtype) 

%timeit np.arange(1E6, dtype=dtype).sum() 

print() 














dtype = object 
10 loops, best of 3: 78.2 ms per loop 


dtype = int 
100 loops, best of 3: 3.06 ms per loop 
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使 用 Python 对 象 构 成 的 数组 就 意味 着 如 果 你 对 一 个 包含 None 的 数组 进行 累计 操作 ， 如 
sum() 或 者 mn()， 那 么 通常 会 出 现 类 型 错误 : 
In[4]: vaLs1.sum() 
TypeError Traceback (most recent CaLL last) 
<ipython-input-4-749fd8ae6030> in <module>() 


----> 1 vals1.sum() 


/Users/jakevdp/anaconda/lib/python3.5/site-packages/numpy/core/_methods.py ... 


30 

31 def sum(a, axis=None, dtype=None, out=None, keepdims=False): 
---> 32 return umr_sum(a, axis, dtype, out, keepdims) 

33 


34 def prod(a, axis=None, dtype=None, out=None, keepdims=False): 


TypeError: unsupported operand type(s) for +: 'int' and 'NoneType' 
这 就 是 说 ， 在 Python 中 没有 定义 整数 与 None 之 间 的 加 法 运算 。 
2. NaN: 数值 类 型 的 缺失 值 
另 一 种 缺失 值 的 标签 是 NaN (全 称 Not a Number， 不 是 一 个 数字 ) ， 是 一 种 按照 IEEE 浮 点 
数 标 准 设计 、 在 任何 系统 中 都 兼容 的 特殊 浮 点 数 : 


In[5]: vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype 





Out[5]: dtype('float64') 
请 注意 ，NumPy 会 为 这 个 数组 选择 一 个 原生 浮 点 类 型 ， 这 意味 着 和 之 前 的 object 类 型 数 
组 不 同 ， 这 个 数组 会 被 编译 成 C 代码 从 而 实现 快速 操作 。 你 可 以 把 NaN 看 作 是 一 个 数据 类 
病毒 一 一 它 会 将 与 它 接 触 过 的 数据 同化 。 无 论 和 NaN 进行 何 种 操作 ， 最 终结 果 都 是 NaN: 


In[6]: 1 + np.nan 





out[6]: nan 
In[7]: 0 * np.nan 
out[7]: nan 
虽然 这 些 累计 操作 的 结果 定义 是 合理 的 〈 即 不 会 抛 出 异常 ) ， 但 是 并 非 总 是 有 效 的 : 


In[8]: vals2.sum(), vals2.min(), vals2.max() 








Out[8]: (nan, nan, nan) 


NumPy 也 提供 了 一 些 特殊 的 累计 函数 ， 它 们 可 以 忽略 缺失 值 的 影响 : 


In[9]: np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2) 














Out[9]: (8.0, 1.0, 4.0) 





大 
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3. Pandas 中 NaN 与 None 的 差异 
虽然 NaN 与 None 各 有 各 的 用 处 ， 但 是 Pandas 把 它们 看 成 是 可 以 等 价 交 换 的 ， 在 适当 的 时 
候 会 将 两 者 进行 赫 换 : 


In[10]: pd.Series([1, np.nan, 2, None]) 


Out[10]: 


Pandas 会 将 没有 标签 值 的 数据 类 型 


0 1.0 
1 NaN 
2 2.0 
3 NaN 


dtype: float64 














谨 记 ，NaN 是 一 种 特殊 的 浮 点 数 ， 不 是 整数 、 字 符 串 以 及 其 他 数据 类 型 。 











置 为 np.nan 时 ， 这 个 值 就 会 强制 转换 成 浮 点 数 缺 失 值 NA。 


In[11]: x = pd.Series(range(2), dtype=int) 


x 


Out[11]: 0 0 
1 1 
dtype: int64 


In[12]: x[0] = None 


x 


Out[12]: 0 NaN 
1 1.0 
dtype: float64 


请 注意 ， 除 了 将 整 型 数组 的 缺失 值 强制 转换 为 浮 点 数 ，Pandas 还 会 














自动 转换 为 NA。 例如 ， 妆 我 们 将 整 型 数组 中 的 一 个 值 设 


自动 将 None 转换 为 


NaN。( 需 要 注意 的 是 ， 现 在 GitHub 上 Pandas 项 目 中 已 经 有 人 提议 增加 一 个 原生 的 整 型 
NA， 不 过 到 编写 本 书 时 还 尚未 实现 。) 


尽管 这 些 仿佛 会 魔法 的 类 型 比 R 语言 等 专用 统计 语言 的 缺失 值 要 复杂 一 些 ， 但 是 Pandas 





的 标签 /转换 方法 在 实践 中 


Pandas 对 NA 缺 








失 值 进行 强制 转换 的 规则 如 表 3-2 所 示 。 
表 3-2: Pandas 对 不 同类 型 缺失 值 的 转换 规则 





类 型 缺失 值 转换 规则 NA 标签 值 
floating 浮 点 型 无 变化 np.nan 

object 对 象 类 型 无 变化 None 或 np.nan 
integer 整数 类 型 强制 转换 为 fLoat64 np.nan 
boolean 布尔 类 型 强制 转换 为 object None 或 np.nan 


需要 注意 的 是 ，Pandas 中 字符 串 类 型 的 数据 通常 是 用 object 类 型 存储 的 。 


的 效果 非常 好 ， 在 我 个 人 的 使 用 过 程 中 几乎 没有 出 过 问题 。 
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3.5.3 ”处 理 缺 失 值 

我 们 已 经 知道 ，Pandas 基本 上 把 None 和 NaN 看 成 是 可 以 等 价 交换 的 缺失 值 形 式 。 为 了 完成 
这 种 交换 过 程 ，Pandas 提供 了 一 些 方法 来 发 现 、 剔 除 、 替 换 数 据 结构 中 的 缺失 值 ， 主 要 包 
括 以 下 几 种 。 


isnull() 

创建 一 个 布尔 类 型 的 掩 码 标签 缺失 值 。 
notnull() 

与 isnull() 操作 相反 。 
dropna() 

返回 一 个 剔除 缺失 值 的 数据 。 
fillna() 

返回 一 个 填充 了 缺失 值 的 数据 副本 。 





本 节 将 用 简单 的 示例 演示 这 些 方法 。 
1. 发 现 缺 失 值 


Pandas 数据 结构 有 两 种 有 效 的 方法 可 以 发 现 缺失 值 : isnuLL() 和 notnuLL()。 每 种 方法 都 
返回 布尔 类 型 的 掩 码 数据 ， 例 如 : 


In[13]: data = pd.Series([1, np.nan, 'hello', None]) 




















In[14]: data.isnull() 


Out[14]: 0 False 


1 True 
2 False 
3 True 
dtype: bool 


就 像 在 3.3 节 中 介绍 的 ， 布 尔 类 型 掩 码 数组 可 以 直接 作为 Series 或 DataFrame 的 索引 使 用 : 


In[15]: data[data.notnull()] 





Out[15]: 0 1 
2 hello 
dtype: object 
在 Series 里 使 用 的 isnuLL() 和 notnull() 同样 适用 于 DataFrame， 产 生 的 结果 同样 是 布尔 
类 型 。 
2. 剔除 缺失 值 
除了 前 面 介 绍 的 掩 码 方 法 ， 还 有 两 种 很 好 用 的 缺失 值 处 理 方 法 分别 是 dropna() (剔除 缺 
失 值 ) 和 fitllna() (填充 缺失 值 )。 在 Series 上 使 用 这 些 方法 非常 简单 : 


In[16]: data.dropna() 





















































Out[16]: 0 1 





110 | 第 3 章 


2 hello 
dtype: object 


而 在 DataFrame 上 使 用 它们 时 需要 设置 一 些 参数 ， 例 如 下 面 的 DataFrame: 





In[17]: df = pd.DataFrame([[1， np.nan，2]， 
[2， 3， 5]， 
[np.nan，4， 6]]) 
df 
Out[17]: 0 12 
0 1.0 NaN 2 
1 “20 :30 “5 
2 NaN 4.0 6 


我 们 设法 从 DataFrame 中 单独 剔除 一 个 值 ， 要 么 是 剔除 缺失 值 所 在 的 整 行 ， 要 么 是 整 列 。 
根据 实际 需求 ， 有 时 你 需要 剔除 整 行 ， 有 时 可 能 是 整 列 ，DataFrame 中 的 dropna() 会 有 一 
些 参数 可 以 配置 。 
默认 情况 下 ，dropna() 会 剔除 任何 包含 缺失 值 的 整 行 数 据 : 

In[18]: df.dropna() 








Out[18]: 0 12 
1 2.0 3.0 5 


可 以 设置 按 不 同 的 坐标 轴 剔 除 缺 失 值 ， 比 如 axis=1 (或 axis='columns') 会 剔除 任何 包含 
缺失 值 的 整 列 数据 : 


In[19]: df.dropna(axis='columns') 





Out[19]: 


EN 
2 


2 
0 2 

5 

6 
但 是 这 么 做 也 会 把 非 缺 失 值 一 并 剔除 ， 因 为 可 能 有 时 候 只 需要 剔除 全 部 是 缺失 值 的 行 或 
列 ， 或 者 绝 大 多 数 是 缺失 值 的 行 或 列 。 这 些 需 求 可 以 通过 设置 how 或 thresh 参数 来 满足 ， 
它们 可 以 设置 剔除 行 或 列 缺 失 值 的 数量 畏 值 。 
默认 设置 是 how='any' ， 也 就 是 说 只 要 有 缺失 值 就 剔除 整 行 或 整 列 〈 通 过 axis 设置 坐标 
轴 ) 。 你 还 可 以 设置 how='all' ， 这 样 就 只 会 剔除 全 部 是 缺失 值 的 行 或 列 了 : 


In[20]: df[3] = np.nan 









































df 
Out[20]: 0 12 3 
0 1.0 NaN 2 NaN 
1 2.0 3.0 5 NaN 
2 NaN 4.0 6 NaN 


In[21]: df.dropna(axis='columns', how='all') 


Out[21]: 0 12 
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还 可 以 通过 thresh 参数 设置 行 或 列 中 非 缺 失 值 的 最 小 数量 ， 从 而 实现 更 加 个 性 化 的 配置 : 


In[22]: df.dropna(axis='rows', thresh=3) 








Out[22]: 0 12 3 
1 2.0 3.0 5 NaN 
第 1 行 与 第 3 行 被 剔除 了 ， 因 为 它们 只 包含 两 个 非 缺失 值 。 
3. 填充 缺失 值 


有 时 候 你 可 能 并 不 想 移 除 缺 失 值 ， 而 是 想 把 它们 替换 成 有 效 的 数值 。 有 效 的 值 可 能 是 像 
0、1、2 那样 单独 的 值 ， 也 可 能 是 经 过 填充 (imputation) 或 转换 (interpolation) 得 到 的 。 
虽然 你 可 以 通过 isnul1l() 方法 建立 掩 码 来 填充 缺失 值 ， 但 是 Pandas 为 此 专门 提供 了 一 个 
fillna() 方法 ， 它 将 返回 填充 了 缺失 值 后 的 数组 副本 。 


来 用 下 面 的 Series 演示 : 


In[23]: data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde')) 
data 









































Out[23]: a 
b 
C 
d NaN 
e 
d 


type: fLoat64 








我 们 将 用 一 个 单独 的 值 来 填充 缺失 值 ， 例 如 用 0: 


In[24]: data.fillna(0) 











Out[24] : 


1 
0. 
2. 
0. 
3. 


= DD 


a 
b 
C 
d 
e 
dtype: fLoat64 


可 以 用 缺失 值 前 面 的 有 效 值 来 从 前 往 后 填充 (forward-fill) : 


In[25]: # 从 前 往 后 填充 
data.fillna(method='ffill') 








Out[25]: 


ODO 
5 


a 
b 
C 
d 
e 
d 


type: float64 





也 可 以 用 缺失 值 后 面 的 有 效 值 来 从 后 往 前 填充 (back-fill) : 














-A 
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In[26]: # 从 后 往 前 填充 
data.fillna(method='bfill') 


Out[26]: 


1; 
2. 
2 
3 
3 


ODOOO® 


a 
b 
C 
d 
e 
dtype: fLoat64 


DataFrame 的 操作 方法 与 series 类 似 ， 只 是 在 填充 时 需要 设置 坐标 轴 参 数 axis: 


In[27]: df 
Out[27]: 及、 于 273 
0 1.0 NaN 2 NaN 
1 2.0 3.0 5 NaN 
2 NaN 4.0 6 NaN 


In[28]: df.fillna(method='ffill', axis=1) 


Out[28]: 





需要 注意 的 是 ， 假 如 在 从 前 往 后 填充 时 ， 需 要 填充 的 缺失 值 前 面 没 有 值 ， 那 么 它 就 仍然 是 
缺失 值 。 


3.6 ”层级 索引 


当 目 前 为 止 ， 我 们 接触 的 都 是 一 维 数据 和 二 维 数 据 ， 用 Pandas 的 Series 和 DataFrame 对 
象 就 可 以 存储 。 但 我 们 也 经 常会 遇 到 存储 多 维 数据 的 需求 ， 数 据 索 引 超过 一 两 个 键 。 
此 ，Pandas 提供 了 Panel 和 Panel4D 对 象 解决 三 维 数据 与 四 维 数据 (详情 请 参见 3.7 节 ) 。 
而 在 实践 中 ， 更 直观 的 形式 是 通过 层级 索引 (hierarchical indexing， 也 被 称 为 多 级 索引 ， 
mnulti-indexing) 配合 多 个 有 不 同等 级 (level) 的 一 级 索引 一 起 使 用 ， 这 样 就 可 以 将 高 维 数 
组 转换 成 类 似 一 维 Series 和 二 维 DataFrame 对 人 象 的 形式 。 


在 这 一 广 中 ， 我 们 将 介绍 创建 MultiIndex 对 象 的 方法 ， 多 级 索引 数据 的 取 值 、 切 片 和 统计 
值 的 计算 ， 以 及 普通 索引 与 层级 索引 的 转换 方法 。 


首先 导入 Pandas 和 NumPy: 























In[1]: ;import pandas as pd 
import numpy as np 


3.6.1 多 级 索引 Series 


让 我 们 看 看 如 何 用 一 维 的 Series 对 象 表示 二 维 数据 一 一 用 一 系列 包含 特征 与 数值 的 数据 点 
来 简单 演示 。 
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1. 笨 办 法 
假设 你 想 要 分 析 美 国 各 州 在 两 个 不 同年 份 的 数据 。 如 有 果 你 用 前 面 介绍 的 Pandas 工具 来 处 
理 ， 那 么 可 能 会 用 一 个 Python 元 组 来 表示 索引 : 


In[2]: index = [('California', 2000), ('California', 2010), 
('New York', 2000), ('New York', 2010), 
('Texas', 2000), ('Texas', 2010)] 
populations = [33871648，37253956 ， 
18976457，19378102， 
20851820，25145561] 
pop = pd.Series(populations, index=index) 
pop 









































out[2]: (California, 2000) 33871648 
(California, 2010) 37253956 


(New York, 2000) 18976457 
(New York, 2010) 19378102 
(Texas, 2000) 20851820 
(Texas, 2010) 25145561 


dtype: int64 


通过 元 组 构成 的 多 级 索引 ， 你 可 以 直接 在 Series 上 取 值 或 用 切片 查询 数据 : 


In[3]: pop[('California', 2010):('Texas', 2000)] 


Out[3]: (California, 2010) 37253956 


(New York, 2000) 18976457 
(New York, 2010) 19378102 
(Texas, 2000) 20851820 


dtype: int64 


但 是 这 么 做 很 不 方便 。 假 如 你 想 要 选择 所 有 2000 年 的 数据 ， 那 么 就 得 用 一 些 比较 复杂 的 
(可 能 也 比较 慢 的 ) 清理 方法 了 : 
In[4]: pop[[i. for i in pop.index if i[1] == 2010]] 
Out[4]: (California, 2010) 37253956 
(New York, 2010) 19378102 


(Texas, 2010) 25145561 
dtype: int64 


这 么 做 虽然 也 能 得 到 需要 的 结果 ， 但 是 与 Pandas 令 人 爱不释手 的 切片 语法 相 比 ， 这 种 方法 
确实 不 够 简洁 (在 处 理 较 大 的 数据 时 也 不 够 高 效 )。 

2. 好 办 法 : Pandas 多 级 索引 

好 在 Pandas 提供 了 更 好 的 解决 方案 。 用 元 组 表示 索引 其 实 是 多 级 索引 的 基础 ，Pandas 
的 MuLtiIndex 类 型 提供 了 更 丰富 的 操作 方法 。 我 们 可 以 用 元 组 创建 一 个 多 级 索引 ， 如 
下 所 示 : 


In[5]: index = pd.MultiIndex.from tuples(index) 
index 








Out[5]: MultiIndex(Llevels=[['California', 'New York', 'Texas'], [2000, 2010]]，, 
labels=[[0, 90, 1, 1, 2, 2], [90, 1, 0, 1, 0, 1]]) 








你 会 发 现 MultiIndex 里 面 有 一 个 levels 属性 表示 索引 的 等 级 一 一 这 样 做 可 以 将 州 名 和 年 
份 作为 每 个 数据 点 的 不 同 标签 。 
如 果 将 前 面 创建 的 pop 的 索引 重 置 (reindex) 为 MultiIndex， 就 会 看 到 层级 索引 : 


In[6]: pop = pop.reindex(index) 
pop 
































Out[6]: California 2000 33871648 
2010 37253956 
New York 2000 18976457 
2010 19378102 
Texas 2000 20851820 
2010 25145561 
dtype: int64 


其 中 前 两 列表 示 Series 的 多 级 索引 值 ， 第 三 列 是 数据 。 你 会 发 现 有 些 行 仿佛 缺失 了 第 一 列 
数据 一 一 这 其 实 是 多 级 索引 的 表现 形式 ， 每 个 空格 与 上 面 的 索引 相同 。 
现在 可 以 直接 用 第 二 个 索引 获取 2010 年 的 全 部 数据 ， 与 Pandas 的 切片 查询 用 法 一 致 : 
In[7]: pop[:, 2010] 
Out[7]: California 37253956 
New York 19378102 
Texas 25145561 
dtype: int64 
吉 果 是 单 索 引 的 数组 ， 正 是 我 们 需要 的 。 与 之 前 的 元 组 索引 相 比 ， 多 级 索引 的 语法 更 简 
洁 。( 操 作 也 更 方便 ! ) 下 面 继续 介绍 层级 索引 的 取 值 操作 方法 。 
3. 高 维 数据 的 多 级 索引 
你 可 能 已 经 注意 到 ， 我 们 其 实 完全 可 以 用 一 个 带 行列 索引 的 简单 DataFrame 代替 前 面 的 多 
级 索引 。 其 实 Pandas 已 经 实现 了 类 似 的 功能 。unstack() 方法 可 以 快速 将 一 个 多 级 索引 的 
Series 转化 为 普通 索引 的 DataFrame: 


In[8]: pop_df = pop.unstack() 
pop_df 
























































Out[8]: 2000 2010 
California 33871648 37253956 
New York 18976457 19378102 
Texas 20851820 25145561 


当然 了 ， 也 有 stack() 方法 实现 相反 的 效果 : 
In[9]: pop_df.stack() 




















Out[9]: California 2000 33871648 
2010 37253956 
New York 2000 18976457 
2010 19378102 
Texas 2000 20851820 
2010 25145561 
dtype: int64 
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你 可 能 会 纠结 于 为 什么 要 费时 间 研 究 层 级 索引 。 其 实 理由 很 简单 : 如 果 我 们 可 以 用 含 多 级 
索引 的 一 维 Series 数据 表示 二 维 数据 ， 那 么 我 们 就 可 以 用 Series 或 DataFrame 表示 三 维 
甚至 更 高 维度 的 数据 。 多 级 索引 每 增加 一 级 ， 就 表示 数据 增加 一 维 ， 利 用 这 一 特点 就 可 以 
轻松 表示 任意 维度 的 数据 了 。 假 如 要 增加 一 列 显 示 每 一 年 各 州 的 人 口 统 计 指 标 〈 例 如 18 
岁 以 下 的 人 口 )， 那 么 对 于 这 种 带 有 MultiIndex 的 对 象 ， 增 加 一 列 就 像 DataFrame 的 操作 





一 样 简单 ; 




















In[10]: pop_df = pd.DataFrame({'total': pop， 
"under18' : [9267089，9284094， 


pop_df 
Out[10]: 

California 2000 
2010 

New York 2000 
2010 

Texas 2000 
2010 


另外 ， 所 有 在 3.4 市 介绍 过 的 


total 
33871648 
37253956 
18976457 
19378102 
20851820 
25145561 





4687374，4318033， 
5906301，6879014]]) 


under18 
9267089 
9284094 
4687374 
4318033 
5906301 
6879014 





通用 函数 和 其 他 功能 也 同样 适用 于 层级 索引 。 我 们 可 以 计算 











上 面 数 据 中 18 岁 以 下 的 人 口 占 总 人 口 的 比例 : 


In[11]: f_u18 = pop_df['under18'] / pop_df['total'] 














f_u18.unstack() 


Out[11]: 
California 0.2 
New York 0.2 
Texas 0.2 











引 数 组 ， 如 下 所 示 : 


2000 


2010 


73594 0.249211 
47010 0.222831 
83251 0.273568 


同样 ， 我 们 也 可 以 快速 浏览 和 操作 高 维 数据 。 


3.6.2 ”多 级 索引 的 创建 方法 
为 Series 或 DataFrame 创建 多 级 索引 最 直接 的 办 法 就 是 将 index 参数 设置 为 至 少 二 维 的 索 


In[12]: df = pd.DataFrame(np.random.rand(4，2)， 


df 
Out[12] : datal 
al 0.554233 
2 0.925244 
b 1 0.441759 
2 0.171495 


index=[[ 


'a', - 'b', "bed [1， 2， 2]] ， 


columns=['data1', 'data2']) 


data2 
0.356072 
0.219474 
0.610054 
0.886688 


MultiIndex 的 创建 工作 将 在 后 台 完成 。 




















同 理 ， 如 果 你 把 将 元 组 作为 键 的 字典 传递 给 Pandas, Pandas 也 会 默认 转换 为 MultiIndex: 


In[13]: data = {('California', 2000): 33871648 ， 
('California', 2010): 37253956 ， 
('Texas', 2000): 20851820 ， 
('Texas', 2010): 25145561 ， 
('New York', 2000): 18976457， 
('New York', 2010): 19378102} 
pd.Series(data) 





Out[13]: California 2000 33871648 
2010 37253956 
New York 2000 18976457 
2010 19378102 
Texas 2000 20851820 
2010 25145561 
dtype: int64 


但 是 有 了 时候 显 式 地 创建 MultiIndex 也 是 很 有 用 的 ， 下 面 来 介绍 一 些 创建 方法 。 


1. 显 式 地 创建 多 级 索引 
你 可 以 用 pd.MultiIndex 中 的 类 方法 更 加 灵活 地 构建 多 级 索引 。 例 如 ， 就 像 前 面 介 绍 的 ， 
你 可 以 通过 一 个 有 不 同等 级 的 若干 简单 数组 组 成 的 列表 来 构建 MultiIndex: 


In[14]: pd.MultiIndex.from arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]]) 





Out[14]: MultiIndex(levels=[['a', 'b'], [1, 2]], 
labels=[[0, 0, 1, 1], [0, 1, 0, 1]]) 


也 可 以 通过 包含 多 个 索引 值 的 元 组 构成 的 列表 创建 MultiIndex: 


In[15]: pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)]) 














Out[15]: MultiIndex(levels=[['a', 'b'], [1, 2]], 
Labels=[[0, 0, 1, 1], [0, 1, 0, 1]]) 


还 可 以 用 两 个 索引 的 第 卡尔 积 (Cartesian product) 创建 MultiIndex: 


In[16]: pd.MultiIndex.from_product([['a', 'b'], [1, 2]]) 





Out[16]: MultiIndex(levels=[['a', 'b'], [1, 2]], 
labels=[[0, 0, 1, 1], [09, 1, 0, 1]]) 
更 可 以 直接 提供 levels (包含 每 个 等 级 的 索引 值 列 表 的 列表 ) 和 labels (包含 每 个 索引 值 
标签 列表 的 列表 ) 创建 MultiIndex: 


In[17]: pd.MultiIndex(levels=[['a', 'b'], [1, 2]]， 
labels=[ [90, 0, 1, 1]， [0， 1，0， 1]]) 














Out[17]: MultiIndex(levels=[['a', 'b'], [1, 2]], 
labels=[[0, 0, 1, 1], [0, 1, 0, 1]]) 
在 创建 Series 或 DataFrame 时 ， 可 以 将 这 些 对 象 作 为 index 参数 ， 或 者 通过 reindex 方法 
更 新 Series 或 DataFrame 的 索引 。 
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2. 多 级 索引 的 等 级 名 称 

给 MuLtiIndex 的 等 级 加 上 名 称 会 为 一 些 操作 提供 便利 。 你 可 以 在 前 面 任 何 一 个 MultiIndex 
构造 器 中 通过 names 参数 设置 等 级 名 称 ， 也 可 以 在 创建 之 后 通过 索引 的 names 属性 来 修改 
名 称 : 


In[18]: pop.index.names = ['state', 'year'] 
pop 
































Out[18]: state year 

California 2000 33871648 
2010 37253956 

New York 2000 18976457 
2010 19378102 

Texas 2000 20851820 
2010 25145561 

dtype: int64 


在 处 理 复杂 的 数据 时 ， 为 等 级 设置 名 称 是 管理 多 个 索引 值 的 好 办 法 。 


3. 多 级 列 索 引 
每 个 DataFrame 的 行 与 列 都 是 对 称 的 ， 也 就 是 说 既然 有 多 级 行 索引 ， 那 么 同样 可 以 有 多 级 
列 索 引 。 让 我 们 通过 一 份 医 学 报告 的 模拟 数据 来 演示 : 


In[19]: 
# 多 级 行列 索引 
index = pd.MultiIndex.from_ product([[2013, 2014], [1, 2]], 
names=[ 'year', 'visit']) 
columns = pd.MultiIndex.from_ product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], 
names=['subject', 'type']) 





# 模拟 数据 
data = np.round(np.random.randn(4, 6), 1) 
data[:, ::2] *= 10 

data += 37 





# 创建 DataFrame 
heaLth_data = pd.DataFrame(data, index=index, columns=columns) 
health_data 


Out[19]: subject Bob Guido Sue 
type HR Temp HR Temp HR Temp 
year visit 
2013 1 31.0 38.7 32.0 .36.7. 35:0 37.2 
2 44.0 37.7 50.0 35.0 29.0 36.7 
2014 1 30.0 37.4 39.0 37.8 61.0 36.9 
2 41i0° 318 4850 313 .S510 36%5 





多 级 行列 索引 的 创建 非常 简单 。 上 面 创建 了 一 个 简易 的 四 维 数据 ， 四 个 维度 分 别 为 被 检查 
人 的 姓名 、 检 查 项 目 、 检 查 年 份 和 检查 次 数 。 可 以 在 列 索 引 的 第 一 级 查询 姓名 ， 从 而 获取 
包含 一 个 人 (例如 Guido) 全 部 检查 信息 的 DataFrame: 


In[20]: health_data[ 'Guido'] 














Out[20]: type HR Temp 
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year visit 


2013 1 3230. 36%7 
2 50.0 35.0 
2014 1 39.0 37.8 
2 48.0 37.3 


如 果 想 获取 包含 多 种 标签 的 数据 ， 需 要 通过 对 多 个 维度 (姓名 、 国 家 、 城 市 等 标签 ) 的 多 
次 查询 才能 实现 ， 这 时 使 用 多 级 行列 索引 进行 查询 会 非常 方便 。 


3.6.3 ”多 级 索引 的 取 值 与 切片 


对 MultiIndex 的 取 值 和 切片 操作 很 直观 ， 你 可 以 直接 把 索引 看 成 额外 增加 的 维度 。 我 们 先 
来 介绍 Series 多 级 索引 的 取 值 与 切片 方法 ， 再 介绍 DataFrame 的 用 法 。 


1. Series 多 级 索引 
看 看 下 面 由 各 州 历年 人 口 数 量 创建 的 多 级 索引 Series : 


In[21]: pop 


























了 














Out[21]: state year 

California 2000 33871648 
2010 37253956 

New York 2000 18976457 
2010 19378102 

Texas 2000 20851820 
2010 25145561 

dtype: int64 


可 以 通过 对 多 个 级 别 索 引 值 获取 单个 元 素 : 


In[22]: pop['California', 2000] 














Out[22]: 33871648 


MultiIndex 也 支持 局 部 取 值 (partial indexing)， 即 只 取 索 引 的 某 一 个 层级 。 假 如 只 取 最 高 
级 的 索引 ， 获 得 的 结果 是 一 个 新 的 Series， 未 被 选中 的 低层 索引 值 会 被 保留 : 


In[23]: pop['California'] 

















Out[23]: year 
2000 33871648 
2010 37253956 
dtype: int64 


类 似 的 还 有 局 部 切片 ， 不 过 要 求 MultiIndex 是 按 顺 序 排列 的 (就 像 将 在 3.6.4 节 介 绍 的 
那样 ) : 


In[24]: pop.loc['California':'New York '] 








Out[24]: state year 
California 2000 33871648 
2010 37253956 
New York 2000 18976457 
2010 19378102 
dtype: int64 
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如 果 索 引 已 经 排序 ， 那 么 可 以 用 较 低 层级 的 索引 取 值 ， 第 一 层级 的 索引 可 以 用 空 切 片 : 
In[25]: pop[:, 2000] 
Out[25]: state 
California 33871648 
New York 18976457 


Texas 20851820 
dtype: int64 


其 他 取 值 与 数据 选择 的 方法 (详情 请 参见 3.3 节 ) 也 都 起 作用 。 下 面 的 例子 是 通过 布尔 掩 
码 选 择 数据 : 


In[26]: pop[pop > 22000000] 

















Out[26]: state year 
California 2000 33871648 
2010 37253956 
Texas 2010 25145561 
dtype: int64 


也 可 以 用 花哨 的 索引 选择 数据 : 


In[27]: pop[['California', 'Texas']] 





Out[27]: state year 
California 2000 33871648 
2010 37253956 
Texas 2000 20851820 
2010 25145561 
dtype: int64 


2. DataFrame 多 级 索引 
DataFrame 多 级 索引 的 用 法 与 Series 类 似 。 还 用 之 前 的 体检 报告 数据 来 演示 : 


In[28]: health_data 


Out[28]: subject Bob Guido Sue 
type HR Temp HR Temp HR Temp 
year visit 
2013 1 31.0 38.7 32.0 36.7. :35:0 37.2 
2 44.0 37.7 50.0 35.0 29.0 36.7 
2014 1 30.0 37.4 39.0 37.8 61.0 36.9 
2 47.0 37.8 48.0 37.3 51.0 36.5 


由 于 DataFrame 的 基本 索引 是 列 索 引 ， 因 此 Series 中 多 级 索引 的 用 法 到 了 DataFrame 中 就 
应 用 在 列 上 了 。 例 如 ， 可 以 通过 简单 的 操作 获取 Guido 的 心率 数据 : 


In[29]: health_data['Guido', 'HR'] 








Out[29]: year visit 


2013 1 32.0 
2 50.0 
2014 1 39.0 
2 48.0 


Name: (Guido, HR), dtype: float64 
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与 让 





虽然 这 些 索引 器 将 多 维 数据 当 作 二 维 数据 处 到 


In[30]: health data.iloc[:2, :2] 


Out[30]: subject Bob 
type HR Temp 
year visit 
2013 1 31.0 38.7 
2 44.0 37.7 





索引 元 组 ， 例 如 : 


In[31]: heaLth_data.Loc[:，('Bob'，'HR')] 


Out[31]: year visit 


2013° 1 31.0 
2 44.0 
2014 1 30.0 
2 47.0 


Name: (Bob, HR), dtype: float64 























索引 类 似 ， 在 3.3 节 介 绍 的 loc、iloc 和 ix 索引 器 都 可 以 使 用 ， 例 如 : 


， 但 是 在 Loc 和 itoc 中 可 以 传递 多 个 层级 的 


这 种 索引 元 组 的 用 法 不 是 很 方便 ， 如 有 果 在 元 组 中 使 用 切片 还 会 导致 语法 错误 ， 


In[32]: heaLth_data.Loc[(:，1)，(:，'HR')] 


File "<ipython-input-32-8e3cc151e316>", line 1 
health_data.loc[(:, 1), (:, 'HR')] 


八 


SyntaxError: invalid syntax 





虽然 你 可 以 用 Python 内 置 的 sLice() 函数 获取 想 要 的 切片 ， 但 是 还 有 一 种 更 好 的 办 法 ， 就 


是 使 用 Indexslice 对 象 。Pandas 专门 用 它 解决 这 类 问题 ， 例 如 : 





Out[33]: subject Bob Guido 
type HR HR 
year visit 
2013 1 31;0 32.0 
2014 1 30.0 39.0 
条 
有 具 一 样 ， 若 想 掌握 它们 ， 最 好 的 办 法 就 是 使 用 它们 ! 


3.6.4 多 级 索引 行列 转换 


In[33]: idx = pd.IndexSLice 


health_data. loc[idx[:, 1], idx[:, 'HR']] 








[0 带 多 级 索引 的 Series 和 DataFrame 进行 数据 交互 的 方法 有 很 多 ， 但 就 像 本 书 中 的 诸多 工 
9》 若 


使 用 多 级 索引 的 关键 是 掌握 有 效 数 据 转换 的 方法 。Pandas 提供 了 许多 操作 ， 可 以 让 数 








据 在 内 容 保持 不 变 的 同时 ， 按 照 需要 进 
stack() 和 unstack() 的 月 

















2 
兄 。 


列 转换 。 之 前 我 们 用 一 个 简短 的 例子 演示 过 
月 法 ， 但 其 实 还 有 许多 合理 控制 层级 行列 索引 的 方法 ， 让 我 们 来 一 
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1. 有 序 的 索引 和 无 序 的 索引 

在 前 面 的 内 容 里 ， 我 们 曾经 简单 提 过 多 级 索引 排序 ， 这 里 需要 详细 介绍 一 下 。 如 果 
MultiIndex 不 是 有 序 的 索引 ， 那 么 大 多 数 切 片 操 作 都 会 失败 。 让 我 们 演示 一 下 。 

首先 创建 一 个 不 按 字典 顺序 〈lexographically) 排列 的 多 级 索引 Series: 


In[34]: index = pd.MultiIndex.from product([['a', 'c', 'b'], [1, 2]]) 
data = pd.Series(np.random.rand(6), index=index) 
data.index.names = ['char', 'int'] 




















data 
Out[34]: char int 

a 1 0.003001 
2 0.164974 

C 1 0.741650 
2 0.569264 

b 1 0.001693 
2 0.526226 

dtype: float64 


如 果 想 对 索引 使 用 局 部 切片 ， 那 么 错误 就 会 出 现 : 
In[35]: try: 
data['a':'b'] 
except KeyError as e: 


print(type(e)) 
print(e) 


<class 'KeyError'> 
'Key Length (1) was greater than MultiIndex Lexsort depth (0)' 


尽管 从 错误 信息 里 面 看 不 出 具体 的 细节 ， 但 问题 是 出 在 MultiIndex 无 序 排列 上 。 局 部 切片 
和 许多 其 他 相似 的 操作 都 要 求 MultiIndex 的 各 级 索引 是 有 序 的 ( 即 按照 字典 顺序 由 A 至 
Z)。 为 此 ，Pandas 提供 了 许多 便捷 的 操作 完成 排序 ， 如 sort_index() 和 sortlevel() 方 
法 。 我 们 用 最 简单 的 sort_index() 方法 来 演示 : 


In[36]: data = data.sort_index() 





data 
Out[36]: char int 

a 1 0.003001 
2 0.164974 

b 1 0.001693 
2 0.526226 

€ 1 0.741650 
2 0.569264 

dtype: float64 


索引 排序 之 后 ， 局 部 切片 就 可 以 正常 使 用 了 : 


In[37]: data['a':'b'] 


Out[37]: char int 
a 4 0.003001 





2 0.164974 
b 1 0.001693 

2 0.526226 
dtype: float64 


2. 索引 stack 与 unstack 
前 文 兽 提 过 ， 我 们 可 以 将 一 个 多 级 索引 数据 集 转换 成 简 生 
数 设置 转换 的 索引 层级 : 


In[38]: pop.unstack(LeveL=0) 


I 


的 二 维 形式 ， 可 以 通过 level 参 





Out[38]: state California New York Texas 
year 
2000 33871648 18976457 20851820 
2010 37253956 19378102 25145561 


In[39]: pop.unstack(level=1) 


Out[39]: year 2000 2010 
state 
California 33871648 37253956 
New York 18976457 19378102 
Texas 20851820 25145561 


unstack() 是 stack() 的 逆 操 作 ， 同 时 使 用 这 两 种 方法 让 数据 保持 不 变 ; 


In[40]: pop.unstack().stack() 


Out[40]: state year 

California 2000 33871648 
2010 37253956 

New York 2000 18976457 
2010 19378102 

Texas 2000 20851820 
2010 25145561 

dtype: int64 


3. 索引 的 设置 与 重 置 

层级 数据 维度 转换 的 另 一 种 方法 是 行列 标签 转换 ， 可 以 通过 reset_index 方法 实现 。 如 
果 在 上 面 的 人 口 数 据 series 中 使 用 该 方法 ， 则 会 生成 一 个 列 标签 中 包含 之 前 行 索引 标签 
state 和 year 的 DataFrame。 也 可 以 用 数据 的 name 属性 为 列 设置 名 称 : 


In[41]: pop_flat = pop.reset_index(name='population') 























pop_flat 

Out[41]: state year population 
0 California 2000 33871648 
1 California 2010 37253956 
2 New York 2000 18976457 
3 New York 2010 19378102 
4 Texas 2000 20851820 
5. Texas 2010 25145561 


在 解决 实际 问题 的 时 候 ， 如 果 能 将 类 似 这 样 的 原始 输入 数据 的 列 直接 转换 成 MultiIndex， 
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通常 将 大 有 神 益 。 其 实 可 以 通过 DataFrame 的 set_index 方法 实现 ， 返 


带 多 级 索引 的 DataFrame: 


In[42]: pop_flat.set index(['state', 'year']) 


Out[42]: population 
state year 

California 2000 33871648 

2010 37253956 

New York 2000 18976457 

2010 19378102 

Texas 2000 20851820 

2010 25145561 


在 实践 中 ， 我 发 现 用 这 种 重建 索引 的 方法 处 理 数据 集 非 常 好 用 。 


3.6.5 ”多 级 索引 的 数据 累计 方法 











前 面 我 们 已 经 介绍 过 一 些 Pandas 自 带 的 数据 累计 方法 ， 比 如 mean()、 

















对 于 层级 索引 数据 ， 可 以 设置 参数 Levet 实现 对 数据 子 集 的 累计 操作 。 
再 一 次 以 体检 数据 为 例 : 


In[43]: health_data 


Out[43]: subject Bob Guido Sue 
type HR Temp HR Temp HR Temp 
year visit 
2013 1 31.0 38.7 32.0 36.7 35.0 37.2 
2 44.0 37.7 50.0 35.0 29.0 36.7 
2014 1 30.0 37.4 39.0 37.8 61.0 36.9 
2 47.0 37.8 48.0 37.3 51.0 36.5 





sum() 和 max()。 


如 果 你 需要 计算 每 一 年 各 项 指标 的 平均 值 ， 那 么 可 以 将 参数 Levet 设置 为 索引 year: 


In[44]: data_mean = heaLth_data.mean(LeveL='year ') 


data_mean 

Out[44]: subject Bob Guido Sue 
type HR Temp HR Temp HR Temp 
year 


2013 37.5 38.2 41.0 35.85 32.0 36.95 
2014 38.5 37.6 43.5 37.55 56.0 36.70 


如 果 再 设置 axis 参数 ， 就 可 以 对 列 索 引进 行 类 似 的 累计 操作 了 : 


In[45]: data_mean.mean(axis=1, level='type') 





Out[45]: type HR Temp 
year 
2013 36.833333 37.000000 
2014 46.000000 37.283333 


两 行 数据 ， 我 们 就 可 以 获取 每 一 年 所 有 人 的 平均 心率 和 体温 了 。 





这 种 语法 其 实 就 


而 


日 
全 








GroupBy 功能 的 快捷 方式 ， 我 们 将 在 3.9 节 详 细 介绍 。 尽 管 这 只 是 一 个 简单 的 示例 ， 但 是 其 
原理 和 实际 工作 中 遇 到 的 情况 类 似 。 


























Panel 数据 


这 里 还 有 一 些 Pandas 的 基本 数据 结构 没有 介绍 到 ， 包 括 pd.Panel 对 象 和 pd.Panel4D 
对 象 。 这 两 种 数据 结构 可 以 分 别 看 成 是 (一 维 数组 ) Series 和 (二 维 数组 ) DataFrame 
的 三 维 与 四 维 形 式 。 如 果 你 熟 炙 Series 和 DataFrame 的 使 用 方法 ， 那 么 Panel 和 
Panel4D 使 用 起 来 也 会 很 简单 ，ix、loc 和 iloc 索引 器 (详情 请 参见 3.3 节 ) 在 高 维 数 
据 结 构 上 的 用 法 更 是 完全 相同 。 


但 是 本 书 并 不 打算 进一步 介绍 这 两 种 数据 结构 ， 我 个 人 认为 多 级 索引 在 大 多 数 情 况 下 
都 是 更 实用 、 更 直观 的 高 维 数据 形式 。 另 外 ，Panet 采用 密集 数据 存储 形式 ， 而 多 级 
索引 采用 稀 足 数据 存储 形式 。 在 解决 许多 真实 的 数据 集 时 ， 随 着 维度 的 不 断 增 加 ， 密 
集 数据 存储 形式 的 效率 将 越 来 越 低 。 但 是 这 类 数据 结构 对 一 些 有 特殊 需求 的 应 用 还 是 
有 用 的 。 如 果 你 想 对 Panel 与 Panel4D 数据 结构 有 更 多 的 认识 ， 请 参见 3.14 节 。 


3.7 合并 数据 集 : Concat 与 Append 操 作 


将 不 同 的 数据 源 进行 合并 是 数据 科学 中 最 有 趣 的 事情 之 一 ， 这 既 包 括 将 两 个 不 同 的 数据 集 
非常 简单 地 拼接 在 一 起 ， 也 包括 用 数据 库 那 样 的 连接 (join) 与 合并 (merge) 操作 处 理 有 
重 倒 字段 的 数据 集 。Series 与 DataFrame 都 具备 这 类 操作 ，Pandas 的 函数 与 方法 让 数据 合 
并 变 得 快速 简单 。 
先 来 用 pd.concat 国 数 演示 一 个 Series 与 DataFrame 的 简单 合并 操作 。 之 后 ， 我 们 将 介绍 
Pandas 中 更 复杂 的 merge 和 join 内 存 数据 合并 操作 。 


首先 导入 Pandas 和 NumPy: 






































In[1]: ;import pandas as pd 
import numpy as np 


简单 起 见 ， 定 义 一 个 能 够 创建 DataFrame 某 种 形式 的 函数 ， 后 面 将 会 用 到 : 


In[2]: def make_df(cols, ind): 
"" "一 个 简单 的 DataFrame""" 
data = {c: [str(c) + str(i) for i in ind] 
for c in cols} 
return pd.DataFrame(data, ind) 




















# DataFrame 示 例 
make_df('ABC' , range(3)) 


Out[2]: A B C 
0 A0 BO CO 
1 AL B1 C1 
2 A2 B2 C2 
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3.7.1 知识 回顾 : NumPy 数 组 的 合并 


合 并 Series 与 DataFrame 与 合并 NumPy 数 组 基本 相同 ， 后 者 通过 22 节 中 介绍 的 
np.concatenate 函数 即 可 完成 。 你 可 以 用 这 个 函数 将 两 个 或 两 个 以 上 的 数组 合并 成 一 个 数组 。 











In[4]: x = [1, 2, 3] 
y = [4, 5, 6] 
z = [7, 8, 9] 


np.concatenate([x, y, z]) 
Out[4]: array([1, 2, 3, 4, 5, 6, 7, 8, 9]) 
第 一 个 参数 是 需要 合并 的 数组 列表 或 元 组 。 还 有 一 个 axis 参数 可 以 设置 合并 的 坐标 轴 
方向 : 
In[5]: x = [[1，2]， 
[3, 4]] 


np.concatenate([x, x], axis=1) 





Out[5]: array([[1, 2, 1, 2], 
[3, 4, 3, 4]]) 


3.7.2 ”通过 pd.concat 实 现 简易 合并 


Pandas 有 一 个 pd.concat() 函数 与 np.concatenate 语法 类 似 ， 但 是 配置 参数 更 多 ， 功 能 
更 强大 : 


# Pandas 0.18 版 中 的 函数 签名 

pd.concat(objs, axis=0, join='outer', join_ axes=None, ignore_index=False, 
keys=None, levels=None, names=None, verify integrity=False, 
copy=True) 


pd.concat() 可 以 简单 地 合并 一 维 的 Series 或 DataFrame 对 象 ， 与 np.concatenate() 合并 
数组 一 样 : 
In[6]: ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3]) 


ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6]) 
pd.concat([ser1, ser2]) 











Out[6]: 


moONmIi 


1 
2 
3 
4 
5 
6 
d 


type: object 


它 也 可 以 用 来 合并 高 维 数据 ， 例 如 下 面 的 DataFrame: 


In[7]: dfl1 = make_df('AB', [1, 2]) 
df2 = make_df('AB', [3, 4]) 
print(df1); print(df2); print(pd.concat([df1, df2])) 





df1 df2 pd.concat([df1, df2]) 
A B A B A B 
1 AL 8B1 3 A3 B3 1 A1 B1 
2 A2 B2 4 A4 B4 2 A2 B2 
3 A3 B3 
4 A4 B4 


默认 情况 下 ，DataFrame 的 合并 都 是 逐 行进 行 的 (默认 设置 是 axis=0)。 与 np.concatenate() 
一 样 ，pd.concat 也 可 以 设置 合并 坐标 轴 ， 例 如 下 面 的 示例 : 
In[8]: df3 = make_df('AB', [0, 1]) 


df4 = make_df('CD', [0, 1]) 
print(df3); print(df4); print(pd.concat([df3, df4], axis='col')) 

















df3 df4 pd.concat([df3, df4], axis='col') 
A B 人 D A B G D 
0 A0 BO 0 C0 DO 0 A0 BO C0 DO 
1 AL 8B1 TEL “D1 1 AL1 Bl C1 D1 
这 里 也 可 以 使 用 axis=1， 效 果 是 一 样 的 。 但 是 用 axis='col' 会 更 直观 。 
1. 索引 重复 


np.concatenate 与 pd.concat 最 主要 的 差异 之 一 就 是 Pandas 在 合并 时 会 保留 索引 ， 即 使 索 
引 是 重复 的 ! 例如 下 面 的 简单 示例 : 
In[9]: x = make_df('AB', [0, 1]) 
y = make_df('AB', [2, 3]) 
y.index = x.index # 复制 索引 
print(x); print(y); print(pd.concat([x, y])) 


x y pd.concat([x, y]) 
A B A B A B 
0 A0 BO 0 A2 B2 0 A0 BO 
1 AL 8B1 1 A3 B3 1 A1 B1 
0 A2 B2 
1 A3 B3 





你 会 发 现 结果 中 的 索引 是 重复 的 。 虽 然 DataFrame 允许 这 么 做 ,但 结果 并 不 是 我 们 想 要 的 。 
pd.concat() 提供 了 一 些 解决 这 个 问题 的 方法 。 


(1) 捕捉 索引 重复 的 错误 。 如 果 你 想 要 检测 pd.concat() 合并 的 结果 中 是 否 出 现 了 重复 的 索 
引 ， 可 以 设置 verify_integrity 参数 。 将 参数 设置 为 True， 合 并 时 若 有 索引 重复 就 会 
触发 异常 。 下 面 的 示例 可 以 让 我 们 清晰 地 捕捉 并 打印 错误 信息 : 

In[10]: try: 
pd.concat([x, y], verify_integrity=True) 


except ValueError as e: 
print("ValueError:", e) 



































了 











VaLueError: Indexes have overlapping values: [0, 1] 


(2 忽略 索引 。 有 了 时 索引 无 关 紧 要 ， 那 么 合并 时 就 可 以 忽略 它们 ， 可 以 通过 设置 ignore_ 
index 参数 来 实现 。 如 果 将 参数 设置 为 True， 那 么 合并 时 将 会 创建 一 个 新 的 整数 索引 。 
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In[11]: print(x); print(y); print(pd.concat([x, y], ignore_index=True)) 


XC y pd.concat([x, y], ignore_index=True) 
A B A B B 
0 A0 BO 0 A2 B2 0 A0 BO 
1 AL Bl1 1 A3 B3 1 A1 B1 
2 A2 B2 
3 A3 B3 


(3) 增 加 多 级 索引 。 另 一 种 处 理 索 引 重 复 的 方法 是 通过 keys 参数 为 数据 源 设置 多 级 索引 标 
签 ， 这 样 结果 数据 就 会 带 上 多 级 索引 : 


In[12]: print(x); print(y); print(pd.concat([x, y], keys=['x', 'y'])) 


x y pd.concat([x, y], keys=['x', 'y']) 
A B A B A B 
0 A0 BO 0 A2 B2 x 0 A0 BO 
1 AL Bl1 1 A3 B3 1 A1 B1 
y 09 A2 B2 
1 A3 B3 





示例 合并 后 的 结果 是 多 级 索引 的 DataFrame， 可 以 用 3.6 市 介绍 的 方法 将 它 转 换 成 我 们 需要 
的 形式 。 
2. 类 似 join 的 合并 
前 面 介绍 的 简单 示例 都 有 一 个 共同 特点 ， 那 就 是 合并 的 DataFrame 都 是 同样 的 列 名 。 而 在 
实际 工作 中 ， 需 要 合并 的 数据 往往 带 有 不 同 的 列 名 ， 而 pd.concat 提供 了 一 些 选项 来 解决 
这 类 合并 问题 。 看 下 面 两 个 DataFrame， 它 们 的 列 名 部 分 相同 ， 却 又 不 完全 相同 : 

In[13]: df5 = make_df('ABC', [1, 2]) 


df6 = make_df('BCD', [3, 4]) 
print(df5); print(df6); print(pd.concat([df5, df6]) 


























df5 df6 pd.concat([df5，df6]) 
A B C B 性 D A B C D 
1 AL B1 C1 3 B3 C3 D3 1 Al Bi1 C1 NaN 
2 A2 B2 C2 4 B4 C4 D4 2 A2 B2 C2 NaN 
3 NaN B3 C3 D3 
4 NaN B4 C4 D4 





默认 情况 下 ， 某 个 位 置 上 缺失 的 数据 会 用 NaN 表示 。 如 有 果 不 想 这 样 ， 可 以 用 join 和 join_ 
axes 参数 设置 合并 方式 。 默 认 的 合并 方式 是 对 所 有 输入 列 进行 并 集合 并 (join='outer')， 
当然 也 可 以 用 join=' inner ' 实现 对 输入 列 的 交集 合并 : 


In[14]: print(df5); print(df6); 
print(pd.concat([df5, df6], join='inner')) 











df5 df6 pd.concat([df5, df6], join="'inner') 
A B C B C D B C 
1 AL B1 C1 3 B363:..D3 1 BL’: C1 
2 A2 B2 C2 4 B4 C4 D4 2 B2 C2 
3 "B33 
4 B4 C4 
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另 一 种 合并 方式 是 直接 确定 结果 使 用 的 列 名 ， 设 置 join_axes 参数 ， 里 面 是 索引 对 象 构成 
的 列表 (是 列表 的 列表 )。 如 下 面 示例 所 示 ， 将 结果 的 列 名 设置 为 第 一 个 输入 的 列 名 : 


In[15]: print(df5); print(df6); 
print(pd.concat([df5, df6], join_axes=[df5.columns])) 









































df5 df6 pd.concat([df5, df6], join_axes=[df5.columns]) 
A B 人 B C D A B C 
1 AL B1 C1 3 B3 C3 D3 1 A1 B1 C1 
2 A2 B2 C2 4 B4 C4 D4 2 A2 B2 C2 
3 NaN B3 C3 
4 NaN B4 C4 


pd.concat 的 合并 功能 可 以 满足 你 在 合并 两 个 数据 集 时 的 许多 需求 ， 操 作 时 请 记 住 这 一 点 。 
3. append() 方 法 
因为 直接 进行 数组 合并 的 需求 非常 普遍 ， 所 以 Series 和 DataFrame 对 象 都 支持 append 方 


法 ， 让 你 通过 最 少 的 代码 实现 合并 功能 。 例 如 ， 你 可 以 使 用 df1.append(df2)， 效 果 与 
pd.concat([df1，df2]) 一 样 : 











In[16]: print(df1); print(df2); print(df1.append(df2)) 


df1 df2 df1.append(df2) 
A B A B A B 
1 AL B1 3 A3 B3 1 AL Bl1 
2 A2 B2 4 A4 B4 2 A2 B2 
3 A3 B3 
4 A4 B4 





需要 注意 的 是 ， 与 Python 列表 中 的 append() 和 extend() 方法 不 同 ，Pandas 的 append() 不 
直接 更 新 原 有 对 象 的 值 ， 而 是 为 合并 后 的 数据 创建 一 个 新 对 象 。 因 此 ， 它 不 能 被 称 之 为 一 
个 非常 高 效 的 解决 方案 ， 因 为 每 次 合并 都 需要 重新 创建 索引 和 数据 缓存 。 总 之 ， 如 果 你 需 
要 进行 多 个 append 操作 ， 还 是 建议 先 创建 一 个 DataFrame 列表 ， 然 后 用 concat() 函数 一 次 
性 解决 所 有 合并 任务 。 

下 一 节 将 介绍 另 一 种 功能 强大 的 数据 组 合 方法 一 一 类 似 数 据 库 的 数据 合并 ， 在 pd.merge 
里 实现 。 关 于 concat() 与 append() 的 更 多 信息 ， 请 参考 Pandas 文档 中 “Merge, Join, and 
Concatenate” (http://pandas.pydata.org/pandas-docs/stable/merging.html) 贡 。 


3.8 合并 数据 集 : 合并 与 连接 


Pandas 的 基本 特性 之 一 就 是 高 性 能 的 内 存 式 数据 连接 (join) 与 合并 (merge) 操作 。 如 果 
你 有 使 用 数据 库 的 经 验 ， 那 么 对 这 类 操作 一 定 很 熟悉 。Pandas 的 主 接口 是 pd.merge 函数 ， 
下 面 让 我 们 通过 一 些 示 例 来 介绍 它 的 用 法 。 


3.8.1 关系 代数 


pd.merge() 实现 的 功能 基于 关系 代数 (relational algebra) 的 一 部 分 。 关 系 代 数 是 处 理 关 
系 型 数据 的 通用 理论 ， 绝 大 部 分 数据 库 的 可 用 操作 都 以 此 为 理论 基础 。 关 系 代 数 方法 论 
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的 强大 之 处 在 于 ， 它 提出 的 若干 简单 操作 规则 经 过 组 合 就 可 以 为 任意 数据 集 构建 十 分 复 
杂 的 操作 。 借 助 在 数据 库 或 程序 里 已 经 高 效 实现 的 基本 操作 规则 ， 你 可 以 完成 许多 非常 
复杂 的 操作 。 


Pandas 在 pd.merge() 函数 与 series 和 DataFrame 的 join() 方法 里 实现 了 这 些 基本 操作 规 
则 。 下 面 来 看 看 如 何 用 这 些 简单 的 规则 连接 不 同 数据 源 的 数据 。 


3.8.2 ”数据 连接 的 类 型 

pd.merge() 国 数 实现 了 三 种 数据 连接 的 类 型 : 一 对 一 、 多 对 一 和 多 对 多 。 这 三 种 数据 连接 
类 型 都 通过 pd.merge() 接口 进行 调用 ， 根 据 不 同 的 数据 连接 需求 进行 不 同 的 操作 。 下 面 将 
通过 一 些 示例 来 演示 这 三 种 类 型 ， 并 进一步 介绍 更 多 的 细节 。 


1. 一 对 一 连接 
一 对 一 连接 可 能 是 最 简单 的 数据 合并 类 型 了 ， 与 3.7 节 介 绍 的 按 列 合并 十 分 相似 。 如 下 面 
示例 所 示 ， 有 两 个 包含 同一 所 公司 员工 不 同 信息 的 DataFrame: 


In[2]: 
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 
'group': ['Accounting', 'Engineering', 'Engineering', 'HR']}) 
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 
'hire date': [2004, 2008, 2012, 2014]}) 
print(df1); print(df2) 





















































df1 df2 

employee group employee hire date 
0 Bob Accounting 0 Lisa 2004 
1 Jake Engineering 下 Bob 2008 
2 Lisa Engineering 2 Jake 2012 
3 Sue HR 3 Sue 2014 


若 想 将 这 两 个 DataFrame 合并 成 一 个 DataFrame， 可 以 用 pd.merge() 函数 实现 . 
In[3]: df3 = pd.merge(df1, df2) 





df3 
Out[3]: employee group hire_ date 
0 Bob © Accounting 2008 
1 Jake Engineering 2012 
2 Lisa Engineering 2004 
3 Sue HR 2014 


pd.merge() 方法 会 发 现 两 个 DataFrame 都 有 “employee” 列 ， 并 会 自动 以 这 列 作为 键 进行 
连接 。 两 个 输入 的 合并 结果 是 一 个 新 的 DataFrame。 需 要 注意 的 是 ， 共 同 列 的 位 置 可 以 是 
不 一 致 的 。 例 如 在 这 个 例子 中 ， 虽然 df1 与 df2 中 “employee” 列 的 位 置 是 不 一 样 的 ， 但 
是 pd.merge() 函数 会 正确 处 理 这 个 问题 。 另 外 还 需要 注意 的 是 ，pd.merge() 会 默认 丢弃 原 
来 的 行 索引 ， 不 过 也 可 以 自 定义 (详情 请 参见 3.8.3 节 ) 。 

2. 多 对 一 连接 

多 对 一 连接 是 指 ， 在 需要 连接 的 两 个 列 中 ， 有 一 列 的 值 有 重复 。 通 过 多 对 一 连接 获得 的 结 
果 DataFrame 将 会 保留 重复 值 。 请 看 下 面 的 例子 : 
























































A 
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In[4]: df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 


'supervisor': ['Ca 


rly', 'Guido', 'Steve']}) 


print(df3); print(df4); print(pd.merge(df3, df4)) 


df3 
employee 
0 Bob 
1 Jake 
2 Lisa 
3 Sue 


group 
Accounting 
Engineering 
Engineering 
HR 


pd.merge(df3, df4) 


employee 
0 Bob 
1 Jake 
2 Lisa 
3 Sue 





有 所 重复 。 
3. 多 对 多 连接 


group 
Accounting 
Engineering 
Engineering 
HR 


df4 
hire_date 
2008 0 Acc 
2012 1 Engi 
2004 2 
2014 


hire_date supervisor 


2008 Carly 
2012 Guido 
2004 Guido 
2014 Steve 


group supervisor 
ounting Carly 
neering Guido 
HR Steve 








在 结果 DataFrame 中 多 了 一 个 “supervisor” 列 ， 里 面 有 些 值 会 因为 输入 数据 的 对 应 关系 而 








多 对 多 连接 是 个 有 点 儿 复 杂 的 概念 ， 不 过 也 可 以 理解 。 如 有 果 左 右 两 个 输入 的 共同 列 都 包含 











才 























重复 值 ， 那 么 合并 的 结果 就 是 一 种 多 对 多 连接 。 用 一 个 例子 来 演示 可 能 更 容易 理解 。 来 看 
面 的 例子 ， 里 面 有 一 个 DataFrame 显示 不 同 岗位 人 员 的 一 种 或 多 种 能 力 。 








通过 多 对 多 链接 ， 就 可 以 得 知 每 位 员工 所 具备 的 能 力 : 


In[5]: df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 





'Enginee 


'skills': ['math', 
'spread 


ring', 'Engineering', 'HR', 'HR'], 


'spreadsheets', 'coding', 'linux', 
sheets', 'organization']}) 


print(df1); print(df5); print(pd.merge(df1, df5)) 


df1 
employee 
0 Bob 
1 Jake 
2 Lisa 
3 Sue 


group 
Accounting 
Engineering 
Engineering 
HR 


pd.merge(df1, df5) 


employee 
Bob 

Bob 

Jake 
Jake 
Lisa 
Lisa 

Sue 

Sue 


OUWUPAWDNOPPO 


group 
Accounting 
Accounting 
Engineering 
Engineering 
Engineering 
Engineering 
HR 

HR 


df5 
group 
0 Accounting 
1 Accounting 
2 Engineering 
3 Engineering 
4 HR 
5 HR 
skills 
math 
spreadsheets 
coding 
linux 
coding 
linux 
spreadsheets 
organization 


skills 

math 
spreadsheets 
coding 

linux 
spreadsheets 
organization 
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这 三 种 数据 连接 类 型 可 以 直接 与 其 他 Pandas 工具 组 合 使 用 ， 从 而 实现 各 种 各 样 的 功 


能 。 但 是 工作 中 的 真实 数据 集 往往 并 不 像 示 例 中 演示 的 那么 和 干净、 整洁 。 下 
pd.merge() 的 一 些 功 能 ， 它 们 可 以 让 你 更 好 地 应 对 数据 连接 中 的 问题 。 


3.8.3 ”设置 数据 合并 的 键 














看 就 来 介绍 








我 们 已 经 见 过 pd.merge() 的 默认 行为 : 它 会 将 两 个 输入 的 一 个 或 多 个 共同 列 作为 键 进行 合 
并 。 但 由 于 两 个 输入 要 合并 的 列 通常 都 不 是 同名 的 ， 因 此 pd.merge() 提供 了 一 些 参 数 处 理 

















这 个 问题 


1. 参数 on 的 用 法 


最 简单 的 方法 就 是 直接 将 参数 on 设置 为 一 个 列 名 字符 串 或 者 一 个 包含 多 列 名 称 的 列表 


In[6]: print(df1); print(df2); print(pd.merge(df1，df2，on='empLoyee ')) 


df1 df2 

empLoyee group employee hire date 
0 Bob Accounting 0 Lisa 2004 
1 Jake Engineering 1 Bob 2008 
2 Lisa Engineering 2 Jake 2012 
3 Sue HR 3 Sue 2014 


pd.merge(df1, df2, on='employee') 


employee group hire date 
0 Bob Accounting 2008 
1 Jake Engineering 2012 
2 Lisa Engineering 2004 
3 Sue HR 2014 


这 个 参数 只 能 在 两 个 DataFrame 有 共同 列 名 的 时 候 才 可 以 使 用 。 
2. left_on 与 right_on 参 数 


有 时 你 也 需 要 合并 两 个 列 名 不 同 的 数据 集 ， 例 如 前 面 的 员工 信息 表 中 有 一 个 字段 不 是 
“employee” 而 是 “name 。 在 这 种 情况 下 ， 就 可 以 用 left_on 和 right_on 参数 来 指定 





列 名 : 


In[7]: 

df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 
'salary': [70000, 80000, 120000, 90000]}) 

print(df1); print(df3); 

print(pd.merge(df1, df3, left_on="employee", right_on="name")) 


df1 df3 

employee group name salary 
0 Bob Accounting 0 Bob 70000 
1 Jake Engineering 1 Jake 80000 
2 Lisa Engineering 2 Lisa 120000 
3 Sue HR 3 Sue 90000 


pd.merge(df1, df3, left_on="employee", right_on="name") 





empLoyee group name salary 
0 Bob “ Accounting Bob 70000 
1 Jake Engineering Jake 80000 
2 Lisa Engineering Lisa 120000 
3 Sue HR Sue 90000 


获取 的 结果 中 会 有 一 个 多 余 的 列 ， 可 以 通过 DataFrame 的 drop() 方法 将 这 列 去 掉 : 


In[8]: 


pd.merge(df1，df3，Left_on="empLoyee" ，right_on="name" ) .drop('name' ，axis=1) 


Out[8]: employee 
Bob 
Jake 
Lisa 
Sue 


salary 
70000 
80000 
120000 
90000 


group 
0 Accounting 
1 Engineering 
2 Engineering 
3 HR 


3. left_index 与 right_index 参 数 


除了 合并 列 之 外 ， 你 可 能 还 需要 合并 索引 。 就 像 下 面 例子 中 的 数据 那样 : 


In[9]: dfla = dfl.set_index('empLoyee ') 
df2a = df2.set_index('employee') 
print(df1a); print(df2a) 





Hp 











df1a df2a 

group hire_date 
employee employee 
Bob Accounting Lisa 2004 
Jake Engineering Bob 2008 
Lisa Engineering Jake 2012 
Sue HR Sue 2014 

你 可 以 通过 设置 pd.merge() 中 的 left_index 和 /或 right_index 参数 将 索引 设置 为 键 来 实 
现 合 并 : 

In[10]: 
print(df1a); print(df2a); 
print(pd.merge(df1a, df2a, left_ index=True, right_index=True)) 
df1a df2a 

group hire_date 
employee employee 
Bob Accounting Lisa 2004 
Jake Engineering Bob 2008 
Lisa Engineering Jake 2012 
Sue HR Sue 2014 
pd.merge(df1ia, df2a, left index=True, right_index=True) 

group hire_date 
empLoyee 
Lisa Engineering 2004 
Bob Accounting 2008 
Jake Engineering 2012 
Sue HR 2014 
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为 了 方便 考虑 ，DataFrane 实现 了 join() 方法 ， 它 可 以 按照 索引 进行 数据 合并 : 
In[11]: print(df1a); print(df2a); print(df1a.join(df2a)) 
df1a df2a 
group hire_date 
employee employee 
Bob Accounting Lisa 2004 
Jake Engineering Bob 2008 
Lisa Engineering Jake 2012 
Sue HR Sue 2014 
df1a.join(df2a) 
group hire_date 
empLoyee 
Bob Accounting 2008 
Jake Engineering 2012 
Lisa Engineering 2004 
Sue HR 2014 
如 果 想 将 索引 与 列 混合 使 用 ， 那 么 可 以 通过 结合 Left_index 与 right_on, 或 者 结合 











on 与 right_index 来 实现 : 


In[12]: 


print(df1a); print(df3); 
print(pd.merge(df1ia, df3, left_index=True, right_on='name')) 


df1a 


empLoyee 
Bob 

Jake 
Lisa 

Sue 


df3 
group 
name salary 
Accounting 0 Bob 70000 
Engineering 1 Jake 80000 
Engineering 2 Lisa 120000 
HR 3 Sue 90000 


pd.merge(df1a, df3, left_index=True, right_on='name') 


left_ 


group name salary 

0 Accounting Bob 70000 

1 Engineering Jake 80000 

2 Engineering Lisa 120000 

3 HR Sue 90000 
当然 ， 这 些 参数 都 适用 于 多 个 索引 和 /或 多 个 列 名 ， 函 数 接口 非常 简单 。 若 想 了 解 Pandas 











数据 合并 的 更 多 信息 ， 请 参考 Pandas 文档 中 “Merge, Join, and Concatenate” (http://pandas. 
pydata.org/pandas-docs/stable/merging.html) 市 。 

3.8.4 设置 数据 连接 的 集合 操作 规则 

Te 我 们 总 结 出 数据 连接 的 一 个 重要 条 件 : 集合 操作 规则 。 当 一 个 值 4 





出 现在 男 一 列 时 ， 就 需要 考虑 集合 操作 规则 了 。 来 看 看 下 面 的 例子 : 





现在 


三 





In[13]: df6 


pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'], 
'food': ['fish', 'beans', 'bread']}, 
columns=[ 'name', 'food']) 
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 
'drink': ['wine', 'beer']}, 
columns=[ 'name', 'drink']) 
print(df6); print(df7); print(pd.merge(df6, df7)) 


df6 df7 pd.merge(df6, df7) 

name food name drink name food drink 
0 Peter fish 0 Mary wine 0 Mary bread wine 
1 Paul beans 1 Joseph beer 


2 Mary bread 


我 们 合并 两 个 数据 集 ， 在 “name” 列 中 只 有 一 个 共同 的 值 : Mary。 默 认 情况 下 ， 结 果 中 只 
会 包含 两 个 输入 集合 的 交集 ， 这 种 连接 方式 被 称 为 内 连接 (inner join)。 我 们 可 以 用 how 参 
数 设置 连接 方式 ， 默 认 值 为 inner ' : 


In[14]: pd.merge(df6, df7, how='inner') 























Out[14]: name food drink 
0 Mary bread wine 


how 参数 支持 的 数据 连接 方式 还 有 'outer'、'left' 和 'right'。 外 连接 (outer join) 返回 
两 个 输入 列 的 交集 ， 所 有 人 缺失 值 都 用 NaN 填充 : 


In[15]: print(df6); print(df7); print(pd.merge(df6，df7，how='outer ')) 








df6 df7 pd.merge(df6，df7，how='outer ') 
name food name drink name food drink 
0 Peter fish 0 Mary wine 0 Peter fish NaN 
1 Paul beans 1 Joseph beer 1 PauL beans NaN 
2 Mary bread 2 Mary bread wine 
3 Joseph NaN beer 

















左 连接 (left join) 和 右 连 接 (rightjoin) 返回 的 结果 分 别 只 包含 左 列 和 右 列 ， 如 下 所 示 : 


In[16]: print(df6); print(df7); print(pd.merge(df6, df7, how='left')) 





df6 df7 pd.merge(df6, df7, how="'left') 
name food name drink name food drink 

0 Peter fish 0 Mary wine 0 Peter fish NaN 

1 Paul beans 1 Joseph beer 1 PauL beans NaN 

2 Mary bread 2 Mary bread wine 


现在 输出 的 行 中 只 包含 左边 输入 列 的 值 。 如 果 用 how=' right' 的 话 ， 输 出 的 行 则 只 包含 右 
边 输入 列 的 值 。 


这 四 种 数据 连接 的 集合 操作 规则 都 可 以 直接 应 用 于 前 下 


3.8.5 重复 列 名 : suffixes 参 数 
最 后 ， 你 可 能 会 遇 到 两 个 输入 DataFrame 有 重 名 列 的 情况 。 来 看 看 下 面 的 例子 : 














介绍 过 的 连接 类 型 。 
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In[17]: df8 


pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 


'rank': [1, 2, 3, 4]}) 

df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 
'rank': [3, 1, 4, 2]}) 

print(df8); print(df9); print(pd.merge(df8, df9, on="name")) 


df8 df9 pd.merge(df8, df9, on="name" 
name rank name rank name rank x rank_y 

0 Bob 1 0 Bob 3 0 Bob 1 3 

1 Jake 2 1 Jake 1 1 Jake 2 1 

2 Lisa 3 2 Lisa 4 2 Lisa 3 4 

3 Sue 4 3 Sue 2 3 Sue 4 2 








由 于 输出 结果 中 有 两 个 重复 的 列 名 ， 因 此 pd 
当然 也 可 以 通过 suffixes 参数 自 定义 后 级 名 


In[18]: 
print(df8); print(df9); 











.merge() 国 数 会 自动 为 它们 增加 后 缀 _x 或 _y， 





print(pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])) 


df8 df9 

name rank name rank 
0 Bob 1 0 Bob 3 
1 Jake 2 1 Jake 1 
2 Lisa 3 2 Lisa 4 
3 Sue 4 3 Sue 2 


pd.merge(df8, df9, on="name", suffixes=["_L", "_R"]) 


name rank_L rank_R 


0 Bob 1 3 
1 Jake 之 1 
2 Lisa 3 4 
3 Sue 4 2 


suffixes 参数 同样 适用 于 任何 连接 方式 ， 即 使 有 三 个 及 三 个 以 上 的 重复 列 名 时 也 同 术 








关于 关系 代数 的 更 多 信息 ， 请 参见 3.9 条 ， 是 


tt 





适用 。 
有 面 对 关 系 代数 进行 了 更 加 深入 的 介绍 。 另 外 ， 





还 可 以 参考 Pandas 文档 中 “Merge, Join, and Concatenate” (http://pandas.pydata.org/pandas- 


docs/stable/merging.html) 节 。 


3.8.6 ”案例 : 美国 各 州 的 统计 数据 


数据 的 合并 与 连接 是 组 合 来 源 不 同 的 数据 的 最 常用 方法 。 下 面 通过 美国 各 州 的 统计 数据 来 
进行 一 个 演示 ， 请 到 https://github.com/jakevdp/data-USstates/ 下 载 数据 : 


In[19]: 
请 使 用 下 面 的 sheLL 下 载 数据 








半 闪 闪闪 闪闪 条 


!curL -0 https://raw.githubusercontent.com/jakevdp/ 
data-USstates/master/state-population.csyv 

!curL -0 https://raw.githubusercontent.com/jakevdp/ 
data-USstates/master/state-areas.csv 

!curL -0 https://raw.githubusercontent.com/jakevdp/ 
data-USstates/master/state-abbrevs.csv 
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用 Pandas 的 read_csv() 函数 看 看 这 三 个 数据 集 : 


In[20]: pop = pd.read_csv('state-population.csv') 
pd.read_csv('state-areas.csv') 
abbrevs = pd.read_csv('state-abbrevs.csv') 


areas 


print(pop.head()); print(areas.head()); print(abbrevs.head()) 


pop.head() 
state/region 
0 AL 
1 AL 
2 AL 
3 AL 
4 AL 


abbrevs .head() 


ages 
under18 
total 
under18 
total 
under18 


areas.head() 


year population 
1117489.0 
4817528.0 


2012 
2012 
2010 
2010 
2011 


state abbreviation 


0 Alabama 
1 Alaska 
2 Arizona 
3 Arkansas 
4 California 


AL 
AK 
AZ 
AR 
CA 


4785570.0 
1125763.0 


0 
1 
1130966.0 2 
3 
3 
4 


state area (sq. mi) 


Alabama 52423 
Alaska 656425 
Arizona 114006 
Arkansas 53182 
Arkansas 53182 
California 163707 


看 过 这 些 数据 之 后 ， 我 们 想 要 计算 一 个 比较 简单 的 指标 : 美国 各 州 的 人 口 密度 排名 。 虽 然 




















可 以 直接 通过 计算 每 张 表 获 取 结果 ， 但 这 次 试 着 用 数据 集 连 接 来 解决 这 个 问题 。 
首先 用 一 个 多 对 一 合并 获取 人 口 (pop) pataFrame 中 各 州 名 称 缩写 对 应 的 全 称 。 我 们 需要 


将 pop 的 state/region 列 与 abbrevs 的 abbreviation 列 进行 合并 ， 还 需要 通过 how='outer' 


确保 数据 没有 丢失 。 





In[21]: merged = pd.merge(pop, abbrevs, how='outer', 
left_on='state/region', right_on="'abbreviation') 


merged 


merged.drop('abbreviation' ，1) # 于 弃 重 复 信息 


merged.head() 


Out[21]: state/region 


WMDPO 


AL 
AL 
AL 
AL 
AL 


ages 
under18 
total 
under18 
total 
under18 


year 
2012 
2012 
2010 
2010 
2011 


population 
1117489.0 
4817528.0 
1130966.0 
4785570.0 
1125763.0 




















state 
Alabama 
Alabama 
Alabama 
Alabama 
Alabama 





来 全 面 检查 一 下 数据 是 否 有 缺失， 我 们 可 以 对 每 个 字段 逐 行 检查 是 否 有 缺失 值 : 


In[22]: merged.isnull().any() 


Out[22]: state/region 


ages 
year 


population 


state 


dtype: bool 


False 
False 
False 
True 
True 
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部 分 population 是 缺失 值 ， 让 我 们 仔细 看 看 那些 数据 ! 


In[23]: merged[merged['population'].isnull()].head() 


Out[23] : state/region ages year Ppopulation state 
2448 PR under18 1990 NaN NaN 
2449 PR total 1990 NaN NaN 
2450 PR total 1991 NaN NaN 
2451 PR under18 1991 NaN NaN 
2452 PR total 1993 NaN NaN 


好 像 所 有 的 人 口 缺失 值 都 出 现在 2000 年 之 前 的 波多 歼 各 “， 此 前 并 没有 统计 过 波多 黎 各 的 人 口 。 


更 重要 的 是 ， 我 们 还 发 现 一 些 新 的 州 的 数据 也 有 缺失， 可 能 是 由 于 名 称 缩写 没有 匹配 上 全 
程 ! 来 看 看 究竟 是 哪个 州 有 缺失 : 


In[24]: merged.loc[merged['state'].isnull(), "state/region'].unique() 





Out[24]: array(['PR' ， 'USA'], dtype=object) 
我 们 可 以 快速 解决 这 个 问题 : 人 口 数据 中 包含 波多 黎 各 (PR) 和 全 国 总 数 (USA)， 但 这 
两 项 没有 出 现在 州 名 称 缩写 表 中 。 来 快速 填充 对 应 的 全 称 : 

In[25]: merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico' 


merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States' 
merged.isnull().any() 








Out[25]: state/region False 


ages False 
year False 
population True 
state False 
dtype: bool 





现在 state 列 没 有 缺失 值 了 ， 万 事 俱 备 ! 
让 我 们 用 类 似 的 规则 将 面积 数据 也 合并 进来 。 用 两 个 数据 集 共同 的 state 列 来 合并 : 


In[26]: final = pd.merge(merged, areas, on='state', how='left') 
final.head() 






































Out[26]: state/region ages year population state area (sq. mi) 
0 AL under18 2012 1117489.0 ALabama 52423.0 
1 AL total 2012 4817528.0 Alabama 52423.0 
2 AL under18 2010 1130966.0 ALabama 52423.0 
3 AL total 2010 4785570.0 Alabama 52423.0 
4 AL under18 2011 1125763.0 Alabama 52423.0 


再 检查 一 下 数据 ， 看 看 哪些 列 还 有 缺失 值 ， 没 有 匹配 上 : 


In[27]: final.isnull().any() 

















Out[27]: state/region False 
ages False 
注 2: Puerto Rico， 目 前 尚未 成 为 美国 的 第 51 个 州 ，2017 年 6 月 第 五 次 入 美 公投 。 一 一 译 者 注 
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year False 


population True 
state False 
area (sq. mi) True 
dtype: bool 


面积 area 列 里 面 还 有 缺失 值 。 来 看 看 究竟 是 哪些 地 区 面积 缺失 : 


In[28]: final['state'][final['area (sq. mi)'].isnull()].unique() 
Out[28]: array(['United States'], dtype=object) 


我 们 发 现 面积 (areas) DataFrame 里 面 不 包含 全 美国 的 面积 数据 。 可 以 插入 全 国 总 面积 
据 〈 对 各 州 面积 求 和 即 可 )， 但 是 针对 本 案例 ， 我 们 要 去 掉 这 个 缺失 值 ， 因 为 全 国 的 人 口 


In[29]: final.dropna(inplace=True) 
final.head() 















































Out[29]: state/region ages year population state area (sq. mi) 
0 AL under18 2012 1117489.0 ALabama 52423.0 
1 AL total 2012 4817528.0 Alabama 52423.0 
2 AL under18 2010 1130966.0 Alabama 52423.0 
3 AL total 2010 4785570.0 ALabama 52423.0 
4 AL under18 2011 1125763.0 Alabama 52423.0 


RH 














现在 所 有 的 数据 都 准备 好 了 。 为 了 解决 眼前 的 问题 ， 先 选择 2000 年 的 各 州 人 口 以 及 总 人 
口 数据 。 让 我 们 用 query() 函数 进行 快速 计算 (这 需要 用 到 numexpr 程序 库 ， 详 情 请 参见 
3.13 节 ): 

















In[30]: data2010 = final.query("year == 2010 & ages == 'total'") 
data2010.head() 


Out[30]: state/region ages year population state area (sq. mi) 
3 AL total 2010 4785570.0 Alabama 52423.0 
91 AK total 2010 713868.0 Alaska 656425.0 
101 AZ total 2010 6408790.0 Arizona 114006.0 
189 AR total 2010 2922280.0 Arkansas 53182.0 
197 CA total 2010 37333601.0 California 163707.0 




















现在 来 计算 人 口 密度 并 按 序 排列 。 首 先 对 索引 进行 重 置 ， 然 后 再 计算 结果 : 


In[31]: data2010.set_index('state', inplace=True) 
density = data2010['population'] / data2010['area (sq. mi)'] 





In[32]: density.sort_values(ascending=False, inplace=True) 
density.head() 


Out[32]: state 
District of Columbia 8898.897059 


Puerto Rico 1058.665149 
New Jersey 1009.253268 
Rhode IsLand 681.339159 
Connecticut 645.600649 


dtype: fLoat64 
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计算 结果 是 美国 各 州 加 上 华盛顿 特区 (Washington, DC)、 波 多 黎 各 在 2010 年 的 人 口 密度 
排序 ， 以 万 人 /平方 英里 为 单位 。 我 们 发 现 人 口 密 度 最 高 的 地 区 是 华盛顿 特区 的 哥伦比亚 
地 区 (the District of Columbia)。 在 各 州 的 人 口 密度 中 ， 新 泽 西 州 (New Jersey) 是 最 高 的 。 
还 可 以 看 看 人 口 密度 最 低 的 几 个 州 的 数据 : 


In[33]: density.tail() 





Out[33]: state 
South Dakota 10.583512 


North Dakota 9.537565 
Montana 6.736171 
Wyoming 5.768079 
ALaska 1.087509 


dtype: float64 
可 以 看 出 ， 人 口 密度 最 低 的 州 是 阿拉 斯 加 (Alaska)， 刚 刚 超过 1 万 人 /平方 英里 。 


当 人 们 用 现实 世界 的 数据 解决 问题 时 ， 合 并 这 类 脏 乱 的 数据 是 十 分 常见 的 任务 。 希 望 这 个 
案例 可 以 帮 你 把 前 面 介绍 过 的 工具 串 起 来 ， 从 而 在 数据 中 找到 想 要 的 答案 ! 


3.9 ”累计 与 分 组 


在 对 较 大 的 数据 进行 分 析 时 ， 一 项 基本 的 工作 就 是 有 效 的 数据 累计 (summarization) : 计 
算 累 计 (aggregation) 指标 ， 如 sum()、mean()、median()、min() 和 max()， 其 中 每 一 个 指 
标 都 呈现 了 大 数据 集 的 特征 。 在 这 一 节 中 ， 我 们 将 探索 Pandas 的 累计 功能 ， 从 类 似 前 面 
NumPy 数组 中 的 简单 操作 ， 到 基于 groupby 实现 的 复杂 操作 。 


3.9.1 行星 数据 
我 们 将 通过 Seaborn 程序 库 (http://seaborn.pydata.org， 详 情 请 参见 4.16 节 ) 用 一 份 行星 数 
据 来 进行 演示 ， 其 中 包含 天 文学 家 观测 到 的 围绕 恒星 运转 的 行星 数据 (通常 简称 为 太阳 系 
外 行星 或 外 行星 ) 。 行 星 数据 可 以 直接 通过 Seaborn 下 载 : 

In[2]: import seaborn as sns 


planets = sns.load dataset('pLanets ' ) 
planets. shape 









































Out[2]: (1035, 6) 


In[3]: planets.head() 


Out[3]: method number orbital period mass distance year 
0 Radial Velocity 1 269.300 7.10 77.40 2006 
1 Radial Velocity 1 874.774 2.21 56.95 2008 
2 Radial Velocity 1 763.000 2.60 19 .84 2011 
3 Radial Velocity 1 326.030 19.40 110.62 2007 
4 Radial Velocity 1 516.220 10.50 119.47 2009 


数据 中 包含 了 截至 2014 年 已 被 发 现 的 一 千 多 颗 外 行星 的 资料 。 





A 


140 | 第 3 章 


3.9.2 人 


之 前 我 们 介绍 过 NumPy 数组 的 一 些 数据 累计 指标 (详情 请 参见 2.4 节 )。 与 一 维 NumPy 数 
数 也 会 返回 一 个 统计 值 : 


In[4]: rng = np.random.RandomState(42) 
ser = pd.Series(rng.rand(5)) 


ser 
Out[4]: .374540 
.950714 
.731994 
.598658 
.156019 
type: float6 


和 


0 
1 
之 
3 
4 
d 


In[5]: ser.sum() 
Out[5]: 2.81192549170 
In[6]: ser.mean() 


Out[6]: 0.56238509834 


DataFrame 的 累计 函数 默认 对 每 列 进行 


In[7]: df = pd.DataFr 
df 


Out[7]: A 
0.155995 
0.058084 
0.866176 
0.601115 
0.708073 


全 六 吕 


In[8]: df.mean() 


Out[8]: A 0.477888 
B 0.443420 
dtype: float6 


4 


81569 


163142 


ame({'A': 
SB 


B 
0.020584 
0.969910 
0.832443 
0.212339 
0.181825 


4 





统计 ; 


rng.rand(5)， 
rng.rand(5)}) 





设置 axis 参数 ， 你 就 可 以 对 每 一 行进 行 统计 了 : 


In[9]: df.mean(axis='columns') 


Out[9]: .088290 
.513997 
.849309 
.406727 
.444949 


type: float6 


DOD DD 


4 








Pandas 的 Series 和 DataFrame 支持 所 有 2.4 节 中 介绍 的 第 用 累计 函数 。 另 外 ， 还 有 一 个 非 





Pandas 数 据 处 理 | 141 





常 方便 的 describe() 方法 可 以 计算 每 一 列 的 若干 常用 统计 值 。 让 我 们 在 行星 数据 上 试验 一 
下 ， 首 先 丢弃 有 缺失 值 的 行 : 


In[10]: planets.dropna().describe() 











Out[10]: number orbital_period mass distance year 
count 498.00000 498.000000 498.000000 498.000000 498.000000 
mean 1.73494 835.778671 2.509320 52.068213 2007.377510 
std 1.17572 1469.128259 3.636274 46.596041 4.167284 
min 1.00000 1.328300 0.003600 1.350000 1989.000000 
25% 1.00000 38.272250 0.212500 24.497500 2005.000000 
50% 1.00000 357.000000 1.245000 39.940000 2009.000000 
75% 2.00000 999.600000 2.867500 59.332500 2011.000000 
max 6.00000 17337.500000 25.000000 354.000000 2014.000000 


这 是 一 种 理解 数据 集 所 有 统计 属性 的 有 效 方 法 。 例 如 ， 从 年 份 year 列 中 可 以 看 出 ，1989 
年 首次 发 现 外 行星 ， 而 且 一 半 的 已 知 外 行星 都 是 在 2010 年 及 以 后 的 年 份 被 发 现 的 。 这 主 
要 得 益 于 开 普 勒 计划 一 一 一 个 通过 激光 望远镜 发 现 恒星 周围 椭圆 轨道 行星 的 太空 计划 。 


Pandas 内 置 的 一 些 累计 方法 如 表 3-3 所 示 。 
表 3-3: Pandas 的 累计 方法 























指标 描述 

count() 计数 项 

first()、 last() 第 一 项 与 最 后 一 项 

mean()、median() 均值 与 中 位 数 

min()、max() 最 小 值 与 最 大 值 

std()、var() 标准 差 与 方差 

mad() 均值 绝对 偏差 (mean absolute deviation) 
prod() 所 有 项 乘积 

sum() 所 有 项 求 和 





DataFrame 和 Series 对 象 支持 以 上 所 有 方法 。 


但 若 想 深入 理解 数据 ， 仅 仅 依靠 累计 函数 是 远 远 不 够 的 。 数 据 累计 的 下 一 级 别 是 groupby 
操作 ， 它 可 以 让 你 快速 、 有 效 地 计算 数据 各 子 集 的 累计 值 。 


3.9.3 GroupBy: 分 割 、 应 用 和 组 合 

简单 的 累计 方法 可 以 让 我 们 对 数据 集 有 一 个 党 统 的 认识 ， 但 是 我 们 经 常 还 需要 对 某 些 标签 
或 索引 的 局 部 进行 累计 分 析 ， 这 时 就 需要 用 到 groupby 了 。 虽 然 “ 分 组 ”(group by) 这 个 
名 字 是 借用 SQL 数据 库 语言 的 命令 ， 但 其 理念 引用 发 明 R 语言 frame 的 Hadley Wickham 
的 观点 可 能 更 合适 : 分 割 (split)、 应 用 (apply) 和 组 合 (combine)。 

1. 分 割 、 应 用 和 组 合 

一 个 经 典 分 割 - 应 用 - 组合 操作 示例 如 图 3-1 所 示 ， 其 中 “apply” 的 是 一 个 求 和 函数 。 






























































图 3-1 清晰 地 描述 了 GroupBy 的 过 程 。 

。 分 割 步骤 将 DataFrame 按照 指定 的 键 分 割 成 若干 组 。 

。 应 用 步 又 对 每 个 组 应 用 函数 ,通常 是 累计 、 转 换 或 过 滤 函 数 。 
。 组 合 步骤 将 每 一 组 的 结果 合并 成 一 个 输出 数组 。 























3-1: groupby 操作 的 可 视 化 过 程 


虽然 我 们 也 可 以 通过 前 面 介绍 的 一 系列 的 掩 码 、 累 计 与 合并 操作 来 实现 ， 但 是 意识 到 中 间 
分 割 过 程 不 需要 显 式 地 暴露 出 来 这 一 点 十 分 重要 。 而 且 GroupBy (经 常 ) 只 需要 一 行 代码 ， 
就 可 以 计算 每 组 的 和 、 均 值 、 计 数 、 最 小 值 以 及 其 他 累计 值 。GroupBy 的 用 处 就 是 将 这 些 
步 又 进行 抽象 : 用 户 不 需要 知道 在 底层 如 何 计算 ， 只 要 把 操作 看 成 一 个 整体 就 够 了 。 


用 Pandas 进行 图 3-1 所 示 的 计算 作为 具体 的 示例 。 从 创建 输入 DataFrame 开始 : 


In[11]: df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 
'data': range(6)}, columns=['key', 'data']) 

















df 


Out[11]: key data 


0 A 0 
1 -"B 1 
2. .7 2 
3 A 3 
4 B 4 
5 “€ 5 





我 们 可 以 用 DataFrame 的 groupby() 方法 进行 绝 大 多 数 笛 见 的 分 割 - 应 用 -组 合 操作 ， 将 
需要 分 组 的 列 名 传 进去 即 可 ; 


In[12]: df.groupby('key ') 


Out[12]: <pandas.core.groupby.DataFrameGroupBy object at 0x117272160> 
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需要 注意 的 是 ， 这 里 的 返回 值 不 是 一 个 DataFrame 对 象 ， 而 是 一 个 DataFrameGroupBy 对 象 。 

个 对 象 的 魔力 在 于 ， 你 可 以 将 它 看 成 是 一 种 特殊 形式 的 DataFrame， 里 面 隐藏 着 若干 组 
数据 ， 但 是 在 没有 应 用 累计 函数 之 前 不 会 计算 。 这 种 “延迟 计算 ”(lazy evaluation) 的 方 
法 使 得 大 多 数 常见 的 累计 操作 可 以 通过 一 种 对 用 户 而 言 几 乎 是 透明 的 (感觉 操作 仿佛 不 存 
在 ) 方式 非常 高 效 地 实现 。 
为 了 得 到 这 个 结果 ， 可 以 对 DataFrameGroupBy 对 象 应 用 累计 国 数 ， 它 会 完成 相应 的 应 用 / 
组 合 步骤 并 生成 结果 ; 

In[13]: df.groupby('key').sum() 





























Out[13] : data 
key 
A 3 
B 5 
人 7 


sum() 只 是 众多 可 用 方法 中 的 一 个 。 你 可 以 用 Pandas 或 NumPy 的 任意 一 种 累计 函数 ， 也 

可 以 用 任意 有 效 的 DataFrame i 下 面 就 会 介绍 

2. GroupBy 对 象 

和 对 象 是 一 种 非常 灵活 的 抽象 类 型 。 在 大 多 数 场景 中 ， 你 可 以 将 它 看 成 是 DataFrame 
的 集合 ， 在 底层 解决 所 有 难题 。 让 我 们 用 行星 数据 来 做 一 些 演示 。 


GroupBy 中 最 重要 的 操作 可 能 就 是 aggregate 、filter、transform 和 apply (累计 、 过 滤 、 转 
换 、 应 用 ) 了 ， 后 文 将 详细 介绍 这 些 内 容 ， 现 在 先 来 介绍 一 些 GroupBy 的 基本 操作 方法 。 


(1) 按 列 取 值 。GroupBy 对 象 与 DataFrame 一 样 ， 也 支持 按 列 取 值 ， 并 返回 一 个 修改 过 的 
GroupBy 对 象 ， 例 如 : 


In[14]: planets.groupby('method') 















































Out[14]: <pandas.core.groupby.DataFrameGroupBy object at 0x1172727b8> 
In[15]: planets.groupby('method')['orbital_period'] 
Out[15]: <pandas.core.groupby.SeriesGroupBy object at 0x117272da0> 


这 里 从 原来 的 DataFrame 中 取 某 个 列 名 作为 一 个 Series 组 。 与 GroupBy 对 象 一 样 ， 直 到 
我 们 运行 累计 函数 ， 才 会 开始 计算 : 
In[16]: planets.groupby('method')['orbital_ period'].median() 


Out[16]: method 


Astrometry 631.180000 
Eclipse Timing Variations 4343.500000 
Imaging 27500.000000 
Microlensing 3300.000000 
Orbital Brightness Modulation 0.342887 
Pulsar Timing 66.541900 
Pulsation Timing Variations 1170.000000 
Radial Velocity 360.200000 
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Transit 5.714932 
Transit Timing Variations 57.011000 
Name: orbital_period, dtype: float64 


这 样 就 可 以 获得 不 同方 法 下 所 有 行星 公转 周期 ( 按 天 计算 ) 的 中 位 数 。 
(2) 按 组 迭代 。GroupBy 对 象 支持 直接 按 组 进行 迭代 ,返回 的 每 一 组 都 是 Series 或 DataFrame: 


In[17]: for (method，group) in pLanets.groupby('method ' ) : 
print("{0:30s} shape={1}".format(method, group.shape)) 














Astrometry shape=(2, 6) 
Eclipse Timing Variations shape=(9, 6) 
Imaging shape=(38, 6) 
Microlensing shape=(23, 6) 
Orbital Brightness Modulation shape=(3, 6) 
Pulsar Timing shape=(5, 6) 
Pulsation Timing Variations shape=(1, 6) 
Radial Velocity shape=(553, 6) 
Transit shape=(397, 6) 
Transit Timing Variations shape=(4, 6) 




















尽管 通常 还 是 使 用 内 置 的 apply 功能 速度 更 快 ， 但 这 种 方式 在 手动 处 到 
有 有 用， 后面 会 详细 介绍 。 

(3) 调 用 方法 。 借 助 Python 类 的 魔力 (@classmethod)， 可 以 让 任何 不 由 GroupBy 对 象 直 接 
实现 的 方法 直接 应 用 到 每 一 组 ， 无 论 是 DataFrame 还 是 Series 对象 都 同样 适用 。 例 如 ， 
你 可 以 用 DataFrame 的 describe() 方法 进行 累计 ， 对 每 一 组 数据 进行 描述 性 统计 : 


In[18]: planets.groupby('method')['year'].describe().unstack() 





某 些 问题 时 非常 


[T 

















I 





Out[18]: 
count mean std min 25% \\ 

method 
Astrometry 2.0 2011.500000 2.121320 2010.0 2010.75 
Eclipse Timing Variations 9.0 2010.000000 1.414214 2008.0 2009.00 
Imaging 38.0 2009.131579 2.781901 2004.0 2008.00 
Microlensing 23.0 2009.782609 2.859697 2004.0 2008.00 
Orbital Brightness Modulation 3.0 2011.666667 1.154701 2011.0 2011.00 
Pulsar Timing 5.0 1998.400000 8.384510 1992.0 1992.00 
Pulsation Timing Variations 1.0 2007.000000 NaN 2007.0 2007.00 
Radial Velocity 553.0 2007.518987 4.249052 1989.0 2005.00 
Transit 397.0 2011.236776 2.077867 2002.0 2010.00 
Transit Timing Variations 4.0 2012.500000 1.290994 2011.0 2011.75 

50% 75% max 
method 
Astrometry 2011.5 2012.25 2013.0 
Eclipse Timing Variations 2010.0 2011.00 2012.0 
Imaging 2009.0 2011.00 2013.0 
Microlensing 2010.0 2012.00 2013.0 
Orbital Brightness Modulation 2011.0 2012.00 2013.0 
Pulsar Timing 1994.0 2003.00 2011.0 
Pulsation Timing Variations 2007.0 2007.00 2007.0 
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Radial Velocity 2009.0 2011.00 2014.0 
Transit 2012.0 2013.00 2014.0 
Transit Timing Variations 2012.5 2013.25 2014.0 


这 张 表 可 以 帮助 我 们 对 数据 有 更 深刻 的 认识 ， 例 如 大 多 数 行星 都 是 通过 Radial Velocity 
和 Transit 方法 发 现 的 ， 而 且 后 者 在 近 十 年 变 得 越 来 越 普 遍 (得 益 于 更 新 、 更 精确 的 望 远 
镜 )。 最 新 的 Transit Timing Variation 和 Orbital Brightness Modulation 方法 在 2011 年 之 
后 才 有 新 的 发 现 。 


这 只 是 演示 Pandas 调用 方法 的 示例 之 一 。 方 法 首先 会 应 用 到 每 组 数据 上 ， 然 后 结果 由 
GroupBy 组 合 后 返回 。 另 外 ， 任意 DataFrame / Series 的 方法 都 可 以 由 GroupBy 方法 调用 ， 
从 而 实现 非常 灵活 强大 的 操作 。 


3. 累计 、 过 滤 、 转 换 和 应 用 

虽然 前 面 的 章节 只 重点 介绍 了 组 合 操作 ， 但 是 还 有 许多 操作 没有 介绍 ， 尤 其 是 GroupBy 对 
象 的 aggregate()、filter()、transform() 和 apply() 方法 ， 在 数据 组 合 之 前 实现 了 大 量 
高 效 的 操作 。 


为 了 方便 后 面 内 容 的 演示 ， 使 用 下 面 这 个 DataFrame: 


In[19]: rng = np.random.RandomState(0) 
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'], 
'datal': range(6)， 
'data2': rng.randint(0, 10, 6)}, 
columns = ['key', 'datal', 'data2']) 
























































df 


Out[19]: key datal data2 
A 0 


WRWDTDPO 
DMDm 
UPRODP 
OUWUWOuU 


(1) 累计。 我 们 目前 比较 熟悉 的 6roupBy 累计 方法 只 有 sum() 和 median() 之 类 的 简单 函数 ， 
但 是 aggregate() 其 实 可 以 支持 更 复杂 的 操作 ， 比 如 字符 串 、 函 数 或 者 函数 列表 ,并且 
能 一 次 性 计算 所 有 累计 值 。 下 面 来 快速 演示 一 个 例子 : 


In[20]: df.groupby('key').aggregate(['min', np.median, max]) 























Out[20]: datal data2 
min median max min median max 
key 
A 0 1.5 3 3 4.0 5 
B J 2.5 4 0 3.5 7 
€ 2 3 5 3 6.0 9 


另 一 种 用 法 就 是 通过 Python 字典 指定 不 同 列 需 要 累计 的 函数 : 


In[21]: df.groupby('key').aggregate({'datal': 'min', 
'data2': 'max'}) 





Out[21] : datal data2 


key 

A 0 5 
B 1 7 
C 2 9 





(2) 过 滤 。 过 滤 操 作 可 以 让 你 按照 分 组 的 属性 丢弃 藻 干 数据 。 例 如 ， 我 们 可 能 只 需要 保留 标 
侍 差 超过 某 个 国 值 的 组 : 
In[22] : 


def filter_func(x): 
return x['data2'].std() > 4 


一 - 





print(df); print(df.groupby('key').std()); 
print(df.groupby('key').filter(filter_func)) 


df df.groupby('key').std() 
key datal data2 key datal data2 
A 0 5 A 2.12132 1.414214 


B 2.12132 4.949747 
CG 2.12132 4.242641 


UUWDOPPO 
A 中 DNR 
UPRODP 
OUWUWO 


df.groupby('key').filter(filter_func) 
key datal data2 
B 1 0 


UDP 


C 2 3 
B 4 7 
C 5 9 
fitter() 函数 会 返回 一 个 布尔 值 ， 表 示 每 个 组 是 否 通过 过 滤 。 由 于 A 组 'data2' 列 的 
标准 差 不 大 于 4， 所 以 被 丢弃 了 。 
(3) 转换。 累计 操作 返回 的 是 对 组 内 全 量 数据 缩减 过 的 结果 ， 而 转换 操作 会 返回 一 个 新 的 全 


量 数据 。 数 据 经 过 转换 之 后 ， 其 形状 与 原来 的 输入 数据 是 一 样 的。 常见 的 例子 就 是 将 每 
一 组 的 样本 数据 减 去 各 组 的 均值 ， 实 现 数据 标准 化 : 


In[23]: df.groupby('key').transform(lambda x: x - x.mean()) 








Out[23]: datal data2 
Cy 1 


UPRPOWODMDPO 
PPAPAPp 

(| 
OOoOouo 


| 
OOPUWUW 


(4) apply() 方法 。apply() 方法 让 你 可 以 在 每 个 组 上 应 用 任意 方法 。 这 个 函数 输入 一 个 
DataFrane， 返 回 一 个 Pandas 对 象 (DataFrame 或 Series) 或 一 个 标量 (scalar， 单 个 数 
值 )。 组 合 操作 会 适应 返回 结果 类 型 。 
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In[24]: def norm_by_data2(x): 
# x 是 一 个 分 组 数据 的 DataFrame 
x['data1'] /= x['data2'].sum() 
return x 


print(df); print(df.groupby('key').apply(norm_by_data2)) 


df df .groupby('key').apply(norm_by_data2) 
key datal data2 key data1 data2 

0 A 0 5 0 A 0.000000 5 

1 B 出 0 1 B 0.142857 0 

2 C 2 3 2 C 0.166667 3 

3 A 3 3 3 A 0.375000 3 

4 B 4 7 4 B 0.571429 7 

5 C 5 9 5 C 0.416667 9 


下 的 例子 就 是 用 apply() 方法 将 第 一 列 数据 以 第 二 列 的 和 为 基数 进行 标准 化 : 





GroupBy 里 的 apply() 方法 非常 灵活 ， 唯 一 需要 注意 的 地 方 是 它 总 是 输入 分 组 数据 的 


DataFrame， 返 回 Pandas 对 象 或 标量 。 具 体 如 何 选择 需要 视 情况 而 定 。 
4. 设置 分 割 的 键 











前 面 的 简单 例子 一 直 在 用 列 名 分 割 DataFrame。 这 只 是 众多 分 组 操作 中 的 一 种 ， 下 面 将 继 

















续 介 绍 更 多 的 分 组 方法 。 


() 将 列表 、 数 组 、Series 或 索引 作为 分 组 键 。 分 组 键 可 以 是 长 度 与 DataFrame 匹配 的 任意 





Series 或 列表 ， 例 如 : 


In[25]: L = [0, 1, 0, 1, 2, 0] 
print(df); print(df.groupby(L).sum()) 


df df .groupby(L).sum() 
key datal data2 datal data2 

0 A 0 5 0 7 17 

J B 1 0 1 4 3 

2 C 2 3 2 4 7 

3 A 3 3 

4 B 4 水 

5 GC 5 9 


因此 ， 还 有 一 种 比 前 面 直接 用 列 名 更 喝 呈 的 表示 方法 df .groupby( 'key'): 


In[26]: print(df); print(df.groupby(df['key']).sum()) 


df df.groupby(df['key']).sum() 
key datal data2 datal data2 

0 A 0 5 A 3 8 

1 B 1 0 B 5 7 

2 C 2 3 C 7 了 > 

3 A 3 3 

4 B 4 7 

5 C 5 9 


(2) 用 字典 或 Series 将 索引 映射 到 分 组 名 称 。 另 一 种 方法 是 提供 一 个 
分 组 键 : 


字典 ， 将 索引 映射 到 





In[27]: df2 = df.set_index('key ') 


mapping = {'A': 'vowel', 'B': 'consonant', 'C': 
print(df2); print(df2.groupby(mapping).sum()) 


df2 df2.groupby(mapping) .sum() 
key datal data2 datal data2 

A 0 5 consonant 12 19 

B 1 0 vowel 3 8 

C 2 3 

A 3 3 

B 4 7 

GC 5 9 





'consonant'} 


(3) 任意 Python 函数 。 与 前 面 的 字典 映射 类 似 ， 你 可 以 将 任意 Python 函数 传 入 groupby， 
函数 映射 到 索引 ， 然 后 新 的 分 组 输出 : 


In[28]: print(df2); print(df2.groupby(str.Lower).mean()) 











df2 

key datal data2 datal data2 
A 0 5 a :5 4.0 
B 1 0 b 2%5 3.5. 
C 2 3 C 335 6.0 
A 3 3 

B 4 7 

E 5 9 


(4) 多 个 有 效 键 构 成 的 列表 。 此 外 ， 任 意 之 前 有 效 的 键 都 可 以 组 合 起 来 进行 分 组 ， 从 而 返回 


一 个 多 级 索引 的 分 组 结果 : 


In[29]: df2.groupby([str.lower, mapping]).mean() 





Out[29]: datal data2 
a vowel :5 4.0 
b consonant 2:5 3.5 
c consonant 人 55 6.0 
5. 分 组 案例 
通过 下 例 中 的 几 行 Python 代码 ， 我 们 就 可 以 运 月 


的 行星 数量 : 











df2.groupby(str.Lower).mean() 





日 上 述 知 识 ， 获 取 不 同方 法 和 不 同年 份 发 现 


In[30]: decade = 10 * (planets['year'] // 10) 


Out[30]: decade 


decade = decade.astype(str) + 's' 


decade.name = 'decade' 


planets.groupby(['method', decadel])['number'].sum().unstack().fillna(0) 


method 

Astrometry 

Eclipse Timing Variations 
Imaging 

Microlensing 

Orbital Brightness Modulation 
Pulsar Timing 

Pulsation Timing Variations 


DDD ODDD 
全 :全 -已 


1980s 


1990s 


OO 让 呈 巴巴 避 吕 
©O©OoOoooo 


PP2OND 
©OOoOoooo 


2000s 


2010s 


jk 
un 
OOOODOODOO 
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Radial Velocity 1.0 52.0 475.0 424.0 
Transit 0.0 0.0 64.0 712.0 
Transit Timing Variations 0.0 0.0 0.0 9.0 








此 例 足 以 展现 GroupBy 在 探索 真实 数据 集 时 快速 组 合 多 种 操作 的 能 力 一 一 只 用 寥寥 几 行 代 
码 ， 就 可 以 让 我 们 立即 对 过 去 几 十 年 里 不 同年 代 的 行星 发 现 方法 有 一 个 大 概 的 了 解 。 


我 建议 你 花 点 时 间 分 析 这 几 行 代码 ， 确 保 自 己 真正 理解 了 每 一 行 代码 对 结果 产生 了 怎样 的 
影响 。 虽 然 这 个 例子 的 确 有 点 儿 复 杂 ， 但 是 理解 这 几 行 代码 的 含义 可 以 帮 你 掌握 分 析 类 似 
数据 的 方法 。 


3.10 ”数据 透视 表 


我 们 已 经 介绍 过 GroupBy 抽象 类 是 如 何 探索 数据 集 内 部 的 关联 性 的 了 。 数 据 透视 表 (pivot 
table) 是 一 种 类 似 的 操作 方法 ， 常 见于 Excel 与 类 似 的 表格 应 用 中 。 数 据 透视 表 将 每 一 列 
数据 作为 输入 ， 和 输出 将 数据 不 断 细 分 成 多 个 维度 累计 信息 的 二 维 数据 表 。 人 们 有 时 容易 弄 
混 数 据 透视 表 与 roupBy， 但 我 觉得 数据 透视 表 更 像 是 一 种 多 维 的 GroupBy 累计 操作 。 也 就 
是 说 ， 虽 然 你 也 可 以 分 割 - 应 用 - 组合， 但 是 分 割 与 组 合 不 是 发 生 在 一 维 索引 上 ， 而 是 在 
二 维 网 格 上 (行列 同时 分 组 )。 


3.10.1 演示 数据 透视 表 
这 一 节 的 示例 将 采用 泰坦 尼克 号 的 乘客 信息 数据 库 来 演示 ， 可 以 在 Seaborn 程序 库 (详情 
请 参见 4.16 节 ) 获取 : 
In[1]: import numpy as np 
import pandas as pd 


import seaborn as sns 
titanic = sns.load dataset('titanic') 


























In[2]: titanic.head() 


Out[2]: 
survived pclass sex age sibsp parch fare embarked class \\ 
0 0 3 male 22.0 1 0 7.2500 Ss Third 
1 于 1 female 38.0 1 0 71.2833 C First 
2 1 3 female 26.0 0 0 7.9250 Ss Third 
3 1 1 female 35.0 1 0 53.1000 S First 
4 0 3 male 35.0 0 0 8.0500 Ss Third 


who adult male deck embark_town alive alone 


0 man True NaN Southampton no False 
1 woman False C Cherbourg yes False 
2 woman False NaN Southampton yes True 
3 woman False C Southampton yes fFalse 
4 man True NaN Southampton no “True 























这 份 数 据 包含 了 惨遭 厄运 的 每 位 乘客 的 大 量 信息 ， 包 括 性 别 (gender)、 年 龄 (age)、 船 舱 
等 级 (class) 和 船 票 价 格 (fare paid) 等 。 





A 
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3.10.2 手工 制作 数据 透视 表 


在 研究 这 些 数据 之 前 ， 先 将 它们 按照 性 别 、 最 终生 还 状态 或 其 他 组 合 属性 进行 分 组 。 如 有 果 
你 看 过 前 面 的 章节 ， 你 可 能 会 用 GroupBy 来 实现 ， 例 如 这 样 统计 不 同性 别 乘 客 的 生还 率 : 


In[3]: titanic.groupby('sex')[['survived']].mean() 
































Out[3]: survived 
sex 
female 0.742038 
male 0.188908 


这 组 数据 会 立刻 给 我 们 一 个 直观 感受 : 总 体 来 说 ， 有 四 分 之 三 的 女性 被 救 ， 但 只 有 五 分 之 
一 的 男性 被 救 ! 


这 组 数据 很 有 用 ， 但 是 我 们 可 能 还 想 进一步 探索 ， 同 时 观察 不 同性 别 与 船舱 等 级 的 生还 情 
况 。 根 据 GroupBy 的 操作 流程 ， 我 们 也 许 能 够 实现 想 要 的 结果 : 将 船舱 等 级 ('class') 与 
性 别 ('sex') 分 组 ， 然 后 选择 生还 状态 ('survived') 列 ， 应 用 均值 ('mean') 累计 函 
数 ， 再 将 各 组 结果 组 合 ， 最 后 通过 行 索引 转 列 索引 操作 将 最 里 层 的 行 索引 转换 成 列 索 引 ， 
形成 二 维 数组 。 代 码 如 下 所 示 : 


In[4]: titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack() 




















Out[4]: class First Second Third 
sex 
female 0.968085 0.921053 0.500000 
male 0.368852 0.157407 0.135447 


虽然 这 样 就 可 以 更 清晰 地 观察 乘客 性 别 、 船 舱 等 级 对 其 是 否 生还 的 影响 ， 但 是 代码 看 上 去 
有 点 复杂 。 尽 管 这 个 管道 命令 的 每 一 步 都 是 前 面 介绍 过 的 ， 但 是 要 理解 这 个 长 长 的 语句 可 
不 是 那么 容易 的 事 。 由 于 二 维 的 GroupBy 应 用 场景 非常 普遍 ， 因 此 Pandas 提供 了 一 个 快捷 
方式 pivot_table 来 快速 解决 多 维 的 累计 分 析 任务 。 


3.10.3 数据 透视 表 语 法 
用 DataFrame 的 pivot_table 实现 的 效果 等 同 于 上 一 节 的 管道 命令 的 代码 : 


In[5]: titanic.pivot_ table('survived', index='sex', columns='class') 









































Out[5]: class First Second Third 
sex 
female 0.968085 0.921053 0.500000 
male 0.368852 0.157407 0.135447 




















与 GroupBy 方法 相 比 ， 这 行 代码 可 读 性 更 强 ， 而 且 取 得 的 结果 也 一 样 。 与 你 对 20 世纪 
初 的 那 场 灾难 的 猜想 一 致 ， 生 还 率 最 高 的 是 船舱 等 级 高 的 女性 。 ee 
部 生还 〈 露 丝 自然 得 救 ) ， 而 三 等 舱 男 性 乘客 的 生还 率 仅 为 十 分 之 一 〈 杰 克 为 爱 辆 牲 ) 。 


1. 多 级 数据 透视 表 
与 GroupBy 类 似 ， 数 据 透视 表 中 的 分 组 也 可 以 通过 各 种 参数 指定 多 个 等 级 。 例 如 ， 我 们 
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可 外 


E 想 把 年 龄 ('age') 也 加 进去 作为 第 三 


行 分 段 : 


In[6]: age = pd.cut(titanic['age'], [0, 18, 80]) 
age], 'class') 


对 某 一 列 也 可 以 使 用 同 档 


titanic.pivot_ table('survived', 


Out[6]: class 


Sex 


age 


female (0, 18] 


male 


(18, 80] 
(0, 18] 
(18, 80] 





加 入 数据 透视 表 看 看 : 


In[7]: fare = pd.qcut(titanic['fare'], 2) 


titanic.pivot_ table('survived', 




















First 


0.909091 
0.972973 
0.800000 
0.375000 


个 维度 ， 


[ sex' ， 
Second 


1.000000 
0.900000 
0.600000 
0.071429 


的 策略 一 一 让 我 们 用 pd.qcut 将 船 





这 就 可 以 通过 pd.cut 函数 将 年 龄 进 


Third 


0.511628 
0.423729 
0.215686 
0.133663 


票 价格 按照 计数 项 等 分 为 两 份 ， 


['sex', age], [fare, 'class']) 


Out[7]: 
fare [0, 14.454] 
class First Second Third \\ 
sex age 
female (0, 18] NaN 1.000000 0.714286 
(18, 80] NaN 0.880000 0.444444 
male (0, 18] NaN 0.000000 0.260870 
(18, 80] 0.0 0.098039 0.125000 
fare (14.454, 512.329] 
class First Second Third 
sex age 
female (0, 18] 0.909091 1.000000 0.318182 
(18, 80] 0.972973 0.914286 0.391304 
male (0, 18] 0.800000 0.818182 0.178571 
(18, 80] 0.391304 0.030303 0.192308 
结果 是 一 个 带 层级 索引 (详情 请 参见 3.6 节 ) 的 四 维 累计 数据 表 ， 通 过 网 格 显 示 不 同 数值 
之 间 的 相关 性 。 
2. 其 他 数据 透视 表 选 项 
DataFrame 的 pivot_table 方法 的 完整 签名 如 下 所 示 : 


我 们 已 经 介绍 过 前 下 
用 于 处 到 


# Pandas 0.18 版 的 国 数 签名 
DataFrame.pivot_ table(data, values=None, index=None, columns=None, 

aggfunc='mean', fill_value=None, margins=False, 
dropna=True，margtins_name='ALL' ) 











i 三 个 参数 了 ， 现 在 来 看 看 其 








计 函 数 可 以 用 一 些 常 


0 用 法 很 简 生 
aggfunc 参数 用 于 设置 累计 函数 类 型 ， 





常见 的 字符 串 〈"sum'、 
可 以 用 标准 的 累计 函数 (np.sum()、min()、 

















'mean' 、 


(mean) 。 


"Count ' 、 


他 参数 。fill_value 和 dropna 这 两 个 参数 
站， 我 们 将 在 后 面 的 示例 中 演示 其 用 法 。 


默认 值 是 均值 


与 GroupBy 的 用 法 一 样 ， 累 
'min'、'max' 等 ) 表示 ,也 





sum() 等 ) 表示 。 男 外 ， 还 可 以 通过 字典 为 不 
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同 的 列 指定 不 同 的 累计 函数 : 


In[8]: titanic.pivot table(index='sex', columns='class', 
aggfunc={' survived':sum, 'fare':'mean'}) 


Out[8]: fare survived 
class First Second Third First Second Third 
sex 
female 106.125798 21.970121 16.118810 91.0 70.0 72.0 
male 67.226127 19.741782 12.661633 45.0 17.0 47.0 


需要 注意 的 是 ， 这 里 忽略 了 一 个 参数 vaLues。 当 我 们 为 aggfunc 指定 映射 关系 的 时 候 ， 待 
透视 的 数值 就 已 经 确定 了 。 


当 需 要 计算 每 一 组 的 总 数 时 ， 可 以 通过 margins 参数 来 设置 ; 


In[9]: titanic.pivot table('survived', index='sex', columns='class', margins=True) 























Out[9]: class First Second Third ALL 
sex 
female 0.968085 0.921053 0.500000 0.742038 
male 0.368852 0.157407 0.135447 0.188908 
ALL 0.629630 0.472826 0.242363 0.383838 


这 样 就 可 以 自动 获取 不 同性 别 下 船舱 等 级 与 生还 率 的 相关 信息 、 不 同 船舱 等 级 下 性 别 与 生 
还 率 的 相关 信息 ， 以 及 全 部 乘客 的 生还 率 为 38%。margin 的 标签 可 以 通过 margins_name 参 
数 进行 自 定 义 ， 默 认 值 是 "All"。 


3.10.4 案例 : 美国 人 的 生日 


再 来 看 一 个 有 趣 的 例子 一 一 由 美国 疾病 防治 中 心 (Centers for Disease Control，CDC) 提供 
的 公开 生日 数据 ， 这 些 数 据 可 以 从 https://raw.githubusercontent.com/jakevdp/data-CDCbirths/ 
master/births.csv 下 载 。(Andrew Gelman 和 他 的 团队 已 经 对 这 个 数据 集 进行 了 深入 的 分 析 ， 
详情 请 参见 博文 http://bit.ly/2fZzW8K。) 

In[10]: 

# shell 下 载 数据 


# !curl -0 https://raw.githubusercontent.com/jakevdp/data-CDCbirths/ 
# master/births.csv 


























In[11]: births = pd.read_csv('births.csv') 


只 简单 浏览 一 下 ， 就 会 发 现 这 些 数据 比较 简单 ， 只 包含 了 不 同 出 生日 期 (年 月 日 ) 与 性 别 
的 出 生 人 数 : 


In[12]: births.head() 





Out[12]: year month day gender births 


0 1969 上 F 4046 
1 1969 1." ,法 M 4440 
2 1969 二 ; 冯 F 4454 
3 1969 1 2 M 4548 
4 1969 1: 3 F 4548 
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可 以 用 一 个 数据 透视 表 来 探索 这 份 数据 。 先 增加 一 列表 示 不 同年 代 ， 看 看 各 年 代 的 男女 出 
生 比 例 : 


In[13]: 
births['decade'] = 10 * (births['year'] // 10) 
births.pivot_ table('births', index='decade', columns='gender', aggfunc='sum') 


Out[13]: gender F M 
decade 
1960 1753634 1846572 


1970 16263075 17121550 
1980 18310351 19243452 
1990 19479454 20420553 
2000 18229309 19106428 


我 们 马上 就 会 发 现 ， 每 个 年 代 的 男性 出 生 率 都 比 女 性 出 生 率 高 。 如 果 希 望 更 直观 地 体现 这 
种 趋势 ， 可 以 用 Pandas 内 置 的 画图 功能 将 每 一 年 的 出 生 人 数 画 出 来 (如 图 3-2 所 示 ， 详 情 
请 参见 第 4 章 中 用 Matplotlib 画图 的 内 容 ) : 














In[14]: 

%matplotlib inline 

import matplotlib.pyplot as plt 

sns.set() # 使 用 Seaborn 风 格 

births.pivot_ table('births', index='year', columns='gender', aggfunc='sum').plot() 
plt.ylabel('total births per year'); 
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3-2: 各 年 不 同性 别 出 生 人 数 分 布 图 














个 简单 的 数据 透视 表 和 plot() 方法 ， 我 们 马上 就 可 以 发 现 不 同性 别 出 生 率 的 趋势 。 





f 


并 助 


通过 肉眼 观察 ， 得 知 过 去 50 年 间 的 男性 出 生 率 比 女性 出 生 率 高 5%。 
深入 探索 
虽然 使 用 数据 透视 表 并 不 是 必须 的 ， 但 是 通过 Pandas 的 这 个 工具 可 以 展现 一 些 有 趣 的 特 
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征 。 我 们 必须 对 数据 做 一 点 儿 清理 工作 ， 消 除 由 于 输 错 了 日 期 而 造成 的 异常 点 (如 6 月 31 
号 ) 或 者 是 缺失 值 (如 1999 年 6 月 )。 消 除 这 些 异 常 的 简便 方法 就 是 直接 删除 异常 值 ， 可 
以 通过 更 稳定 的 sigma 消除 法 (sigma-clipping， 按 照 正 态 分 布 标准 差 划 定 范 
默认 是 四 个 标准 差 ) 操作 来 实现 : ” 
In[15]: quartiles = np.percentile(births['births'], [25, 50, 75]) 
mu = quartiles[1] 
sig = 0.74 * (quartiles[2] - quartiles[0]) 





























姑 ，SciPy 中 

















最 后 一 行 是 样本 均值 的 稳定 性 估计 (robust estimate) ， 其 中 0.74 是 指标 准 正 态 分 布 的 分 位 
数 间距 。 在 query() 方法 (详情 请 参见 3.13 节 ) 中 用 这 个 范围 就 可 以 将 有 效 的 生日 数据 得 
选 出 来 了 : 

In[16]: 

births = births.query('(births > @myu - 5 * @sig) & (births < @mu + 5 * @sig)') 


然后 ， 将 day 列 设置 为 整数 。 这 列 数据 在 筛选 之 前 是 字符 串 ， 因 为 数据 集中 有 的 列 含有 缺 
失 值 nuULL' : 


In[17]: # 将 'day' 列 设置 为 整数 。 由 于 其 中 含有 缺失 值 nuLL， 因 此 是 字符 串 
births['day'] = births['day'].astype(int) 


现在 就 可 以 将 年 月 日 组 合 起 来 创建 一 个 日 期 索引 了 (详情 请 参见 3.12 节 )， 这 样 就 可 以 快 
速 计算 每 一 行 是 星期 几 : 
In[18]: # 从 年 月 日 创建 一 个 日 期 索引 
births.index = pd.to_datetime(10000 * births.year + 


100 * births.month + 
births.day，format= '%Y%m%d ' ) 


























births['dayofweek'] = births.index.dayofweek 


用 这 个 索引 可 以 画 出 不 同年 代 不 同 星期 的 日 均 出 生 数据 (如 图 3-3 所 示 ) : 


In[19]: 
import matplotlib.pyplot as plt 
import matplotlib as mpl 




















births.pivot_ table('births', index='dayofweek', 

columns='decade', aggfunc='mean').plot() 
plt.gca().set xticklabels(['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun']) 
plt.ylabel('mean births by day'); 
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: 你 可 以 从 我 与 Zeljko Ivezi、Andrew J. Connolly 以 及 Alexander Gray 合 著 的 ， 由 普林斯顿 大 学 出 版 社 
于 2014 年 出 版 的 Statistics, Data Mining, and Machine Learning in Astronomy: A Practical Python Guide 
Jfor the Analysis of Survey Data 一 书 中 了 解 更 多 关于 sigma 消除 法 操作 的 内 容 。 
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图 3-3: 不 同年 代 不 同 星期 的 日 均 出 生 数 据 


由 图 可 知 ， 周 末 的 出 生 人 数 比 工作 日 要 低 很 多 。 另 外 ， 因 为 CDC 只 提供 了 1989 年 之 前 的 
数据 ， 所 以 没有 20 世纪 90 年 代 和 21 世纪 的 数据 。 


男 一 个 有 趣 的 图 表 是 画 出 各 个 年 份 平 均 每 天 的 出 生 人 数 ， 可 以 按照 月 和 日 两 个 维度 分 别 对 
数据 进行 分 组 : 


In[20]: 
births_by_date = births.pivot table('births', 

[births.index.month, births.index.day]) 
births_by_date.head() 


Out[20]: 1 1 4009.225 
2 4247.400 
3 4500.900 
4 4571.350 
5 4603.625 


: births, dtype: float64 
这 是 一 个 包含 月 和 日 的 多 级 索引 。 为 了 让 数据 可 以 用 图 形 表示 ， 我 们 可 以 虚构 一 个 年 份 ， 
与 月 和 日 组 合成 新 索引 (注意 日 期 为 2 月 29 日 时 ， 索 引 年 份 需要 用 半年 ， 例 如 2012) : 


In[21]: births_by_date.index = [pd.datetime(2012, month, day) 
for (month, day) in births_by_date.index] 








births_by_date.head() 


Out[21]: 2012-01-01 4009.225 
2012-01-02 4247.400 
2012-01-03 4500 .900 
2012-01-04 4571.350 
2012-01-05 4603.625 
Name: births, dtype: float64 


如 果 只 3 


心 月 和 日 的 话 ， 这 就 是 一 个 可 以 反映 一 年 中 平均 每 天 出 生 人 数 的 时 间 序 列 。 可 以 
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用 plot 方法 将 数据 画 成 图 (如 图 3-4 所 示 ) ， 从 图 中 可 以 看 到 一 些 有 趣 的 趋势 ; 


In[22]: # 将 结果 画 成 医 
fig, ax = plt.subplots(figsize=(12, 4)) 
births_by_date.plot(ax=ax); 
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图 3-4: 平均 每 天 的 出 生 人 数 


从 图 中 可 以 明显 看 出 ， 在 美国 节假日 的 时 候 ， 出 生 人 数 急速 下 降 (例如 美国 独立 日 、 劳 
动 节 、 感 恩 节 、 圣 诞 节 以 及 新 年 )。 这 种 现象 可 能 是 由 于 医院 放假 导致 的 接生 减少 〈 自 己 
在 家 生 ) ， 而 非 某 种 自然 生育 的 心理 学 效应 。 关 于 这 个 趋势 的 更 详细 介绍 ， 请 参考 Andrew 
Gelman 的 博客 (http://bit.ly/2fZzW8K)。 我 们 将 在 4.11.1 节 再 次 使 用 这 张 图 ， 那 时 将 用 
Matplotlib 的 画图 工具 为 这 张 图 增加 标注 。 


通过 这 个 简单 的 案例 ， 你 会 发 现 许多 前 面 介绍 过 的 Python 和 Pandas 工具 都 可 以 相互 结合 ， 
并 用 于 从 大 量 数据 集中 获取 信息 。 我 们 将 在 后 面 的 章节 中 介绍 如 何 用 这 些 工具 创建 更 复杂 
的 应 用 。 


3.11 向 量化 字符 串 操 作 


使 用 Python 的 一 个 优势 就 是 字符 串 处 理 起 来 比较 容易 。 在 此 基础 上 创建 的 Pandas 同样 提 
供 了 一 系列 向 量化 字符 串 操作 (vectorized string operation) ， 它 们 都 是 在 处 理 (清洗 ) 现实 
工作 中 的 数据 时 不 可 或 缺 的 功能 。 在 这 一 节 中 ， 我 们 将 介绍 Pandas 的 字符 串 操 作 ， 学 习 如 
何 用 它们 对 一 个 从 网 络 采集 来 的 杂乱 无 章 的 数据 集 进行 局 部 清理 。 


3.11.1 Pandas 字 符 串 操作 简介 
前 面 的 音节 已 经 介绍 过 如 何 用 NumPy 和 Pandas 进行 一 般 的 运算 操作 ， 因 此 我 们 也 能 简便 
快速 地 对 多 个 数组 元 素 执行 同样 的 操作 ， 例 如 : 

In[1]: import numpy as np 


x = np.array([2, 3, 5, 7, 11, 13]) 
XX 入 这 































































































Out[1]: array([ 4, 6, 10, 14, 22, 26]) 
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向 量化 操作 简化 了 纯 数 值 的 数组 操作 语法 一 一 我 们 不 需要 再 担心 数组 的 长 度 或 维度 ， 只 
要 关心 需要 的 操作 。 然 而 ， 由 于 NumPy 并 没有 为 字符 串 数组 提供 简单 的 接口 ， 因 此 需 
通过 繁琐 的 for 循环 来 解决 问题 : 

















In[2]: data = ['peter', 'Paul', 'MARY', 'gUIDO'] 
[s.capitalize() for s in data] 


Out[2]: ['Peter', 'Paul', 'Mary', 'Guido'] 


虽然 这 么 做 对 于 某 些 数据 可 能 是 有 效 的 ， 但 是 假如 数据 中 出 现 了 缺失 值 ， 那 么 这 样 做 就 会 
引起 异常 ， 例 如 : 


In[3]: data = ['peter', 'Paul', None, 'MARY', 'gUIDO'] 
[s.capitalize() for s in data] 





AttributeError Traceback (most recent call last) 


<ipython-input-3-fc1id891ab539> in <module>() 
1 data = ['peter', 'Paul', None, 'MARY', 'gUIDO'] 
----> 2 [s.capitalize() for s in data] 


<ipython-input-3-fc1d891ab539> in <listcomp>(.0) 
1 data = ['peter', 'Paul', None, 'MARY', 'gUIDO'] 
----> 2 [s.capitalize() for s in data] 


AttributeError: 'NoneType' object has no attribute 'capitalize' 


Pandas 为 包含 字符 串 的 Series 和 Index 对 象 提 供 的 str 属性 堪 称 两 全 其 美的 方法 ， 它 既 
可 以 满足 向 量化 字符 串 操 作 的 需求 ， 又 可 以 正确 地 处 理 缺 失 值 。 例 如 ， 我 们 用 前 面 的 数据 
data 创建 了 一 个 Pandas 的 Series: 

In[4]: import pandas as pd 


names = pd.Series(data) 
names 























Out[4]: 0 peter 
1 Paul 
2 None 
3 MARY 
4 guUIDO 
dtype: object 


现在 就 可 以 直接 调用 转换 大 写 方法 capitalize() 将 所 有 的 字符 串 变 成 大 写 形式 ， 缺 失 值 会 
被 跳 过 : 

In[5]: names.str.capitalize() 

Out[5]: 0 Peter 


1 Paul 
2 None 





3 Mary 
4 Guido 
dtype: object 


在 str 属性 后 男 























3.11.2 ”Pandas 字 符 串 方法 列 


用 Tab 键 ， 可 以 看 到 Pandas 支持 的 所 有 向 量化 字符 串 方法 。 


表 





如 果 你 熟悉 Python 的 字符 串 方法 的 话 ， 就 会 发 现 Pandas 绝 大 多 数 的 字符 串 语法 都 很 直观 ， 





示例 将 采用 一 些 人 名 来 演示 : 


In[6]: monte = pd.Series(['Graham Chapma 
'Eric Idle', ' 


1. 与 Python 字符 串 方 法 相似 的 方法 


其 至 可 以 列 成 一 个 表格 。 在 深入 论述 后 面 的 内 容 之 前 ， 让 我 们 先 从 这 一 步 开始 。 这 一 市 的 


n', 'John Cleese', 'Terry Gilliam', 
Terry Jones', 'Michael Palin']) 





几乎 所 有 Python 内 置 的 字符 串 方法 都 被 复制 到 Pandas 的 向 量化 字符 串 方 法 中 。 下 面 的 表 

















格 列举 了 Pandas 的 str 方法 借鉴 Python 字符 串 方 法 的 内 容 : 
len() Lower() translate() islower() 

ljust() upper() startswith() isupper() 

rjust() find() endswith() isnumeric() 
center() rfind() isalnum() isdecimal() 
zfil1l() index() isalpha() split() 

strip() rindex() isdigit() rsplit() 

rstrip() capitalize() isspace() partition() 
lstrip() swapcase() istitle() rpartition() 





需要 注意 的 是 ， 这 些 方 法 的 返回 值 不 同 ， 例 如 

In[7]: monte.str. lower() 

Out[7]: 0 graham chapman 
1 john cleese 
2 terry gilliam 
3 eric idle 
4 terry jones 
5 michael palin 
dtype: object 


但 是 有 些 方法 返回 数值 : 


In[8]: monte.str.Len() 





Out[8]: 0 
1 
2 
3 9 
4 
5 
d 


type: int64 








Lower() 方法 返回 一 个 字符 串 Series: 
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有 些 方法 返回 布尔 值 : 


In[9]: monte.str.startswith('T') 











Out[9]: 0 False 
1 False 
2 True 
3 False 
4 True 
5 False 
d 


type: bool 

















还 有 些 方法 返回 列表 或 其 他 复合 值 : 


In[10]: monte.str.split() 





Out[10]: 0 [Graham, Chapman] 
工 [John, Cleesel] 
2 [Terry, Gilliam] 
3 [Eric, Idlel] 
4 [Terry, Jones] 
5 [Michael, Palin] 
dtype: object 





在 接 下 来 的 内 容 中 ， 我 们 将 进一步 学 习 这 类 由 列表 元 素 构 成 的 sertes (series-of lists) 对 象 。 
2. 使 用 正则 表达 式 的 方法 


还 有 一 些 支持 正则 表达 式 的 方法 可 以 用 来 处 理 每 个 字符 串 元 素 。 表 3-4 中 的 内 容 是 Pandas 
向 量化 字符 串 方法 根据 Python 标准 库 的 re 模块 函数 实现 的 API。 


表 3-4: Pandas 向 量化 字符 串 方 法 与 Python 标准 库 的 re 模块 函数 的 对 应 关系 













































































沪 法 描述 

match() 对 每 个 元 素 调用 re.match()， 返 回 布尔 类 型 值 

extract() 对 每 个 元 素 调 用 re.match()， 返 回 匹配 的 字符 串 组 (groups ) 
findall() 对 每 个 元 素 调 用 re.findall() 

replace() 用 正则 模式 禁 换 字符 串 

contains() 对 每 个 元 素 调 用 re.search()， 返 回 布尔 类 型 值 

count() 计算 符合 正则 模式 的 字符 串 的 数量 

split() 等 价 于 str.split()， 支 持 正则 表达 式 

rsplit() 等 价 于 str.rsplit()， 支 持 正则 表达 式 


通过 这 些 方法 ， 你 就 可 以 实现 各 种 有 趣 的 操作 了 。 例 如 ， 可 以 提取 元 素 前 面 的 连续 字母 作 
为 每 个 人 的 名 字 (first name) : 


In[11]: monte.str.extract('([A-Za-z]+)') 





Out[11]: 0 Graham 
1 John 
2 Terry 
3 ERLE 
4 Terry 





5 Michael 
dtype: object 











我 们 还 能 实现 更 复杂 的 操作 ， 例 如 找 出 所 有 开头 和 结尾 都 是 辅音 字母 的 名 字 一 这 可 以 用 
正则 表达 式 中 的 开始 符号 〈^) 与 结尾 符号 〈$) 来 实现 : 


In[12]: monte.str.findall(r'^[^AEIOU].*[^aeiou]$') 

















Out[12] : [Graham Chapman] 


0 

1 [] 
2 [Terry Gilliam] 
3 [] 
4 [Terry Jones] 
5 [Michael Palin] 
dtype: object 


能 将 正则 表达 式 应 用 到 Series 与 DataFrame 之 中 的 话 ， 就 有 可 能 实现 更 多 的 数据 分 析 与 清 
洗 方法 。 

3. 其 他 字符 串 方 法 

还 有 其 他 一 些 方法 也 可 以 实现 方便 的 操作 (如 表 3-5 所 示 )。 

表 3-5 其 他 Pandas 字 符 串 方法 









































闹 法 描述 

get() 获取 元 素 索引 位 置 上 的 值 ， 索 引 从 0 开始 
slice() 对 元 素 进行 切片 取 值 

slice_replace() 对 元 素 进 行 切 片 替 换 

cat() 连接 字符 串 (此 功能 比较 复杂 ， 建 议 阅 读 文档 ) 
repeat() 重复 元 素 

normalize() 将 字符 串 转换 为 Unicode 规范 形式 

pad() 在 字符 串 的 左边 、 右 边 或 两 边 增加 空格 

wrap() 将 字符 串 按照 指定 的 宽度 换行 

join() 用 分 隔 符 连接 series 的 每 个 元 素 
get_dummies() 按照 分 隔 符 提 取 每 个 元 素 的 dummy 变量 ， 转 换 为 独 热 (one-hot) 编码 的 DataFrame 


(1) 向 量化 字符 串 的 取 值 与 切片 操作 。 这 里 需要 特别 指出 的 是 ，get() 与 stice() 操作 可 以 
从 每 个 字符 串 数组 中 获取 向 量化 元 素 。 例 如 ， 我 们 可 以 通过 str.slice(06，3) 获取 每 个 
字符 串 数 组 的 前 三 个 字符 。 通 过 Python 的 标准 取 值 方法 也 可 以 取得 同样 的 效果 ， 例 如 
df.str.slice(0，3) 等 价 于 df.str[0:3]: 


In[13]: monte.str[0:3] 
Out[13]: 0 Gra 
1 Joh 
2 Ter 
3 Eri 
4 Ter 
5 Mic 
dtype: object 
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df.str.get(i) 与 df.str[i] 的 按 索引 取 值 效果 类 似 。 


get() 与 slice() 操作 还 可 以 在 split() 操作 之 后 使 用 。 例 如 ， 要 获取 每 个 姓名 的 姓 
(lastname) ， 可 以 结合 使 用 split() 与 get(): 


In[14]: monte.str.split().str.get(-1) 
Out[14]: 0 Chapman 
1 Cleese 
2 Gilliam 
3 Idle 
4 Jones 
5. Palin 
dtype: object 


(2) 指标 变量 。 另 一 个 需要 多 花 点 儿 时 间 解 释 的 是 get_dummies() 方法 。 当 你 的 数据 有 一 列 
包含 了 若干 已 被 编码 的 指标 (coded indicator) 时 ， 这 个 方法 就 能 派 上 用 场 了 。 例 如 ， 
假设 有 一 个 包含 了 某 种 编码 信息 的 数据 集 ， 如 A= 出 生 在 美国 、B= 出 生 在 英国 、C= 喜 
欢 奶酪 、D= 喜欢 午餐 肉 : 

In[15]: 


full_monte = pd.DataFrame({'name': monte, 
'info': ['BIC|ID', 'B|ID', 'AlC', 'B|ID', 'BIC', 

















'BICID']}) 

full_monte 
Out[15]: info name 

0 BICID Graham Chapman 

1 BID John Cleese 

2 AIC Terry Gilliam 

3 BID Eric Idle 

4 BIC Terry Jones 

5 BICID Michael Palin 








get_dummies() 方法 可 以 让 你 快速 将 这 些 指标 变量 分 割 成 一 个 独 热 编码 的 DataFrame (每 
个 元 素 都 是 0 或 1) : 


In[16]: full_monte['info'].str.get dummies('|') 





Out[16]: 


A 
0 
0 
1 
0 
0 
0 


URWNPAO 

PPpAPOPPm 
PPAOPOPANA 
POPOPPDO 





通过 Pandas 自 带 的 这 些 字符 串 操 作 方法 ， 你 就 可 以 建立 一 个 功能 无 比 强大 的 字符 串 处 
理 程序 来 清洗 自己 的 数据 了 。 
虽然 本 书 将 不 再 继续 介绍 这 些 方法 ,但 是 希望 你 仔细 阅读 Pandas 在 线 文 档 中 “Working 
with Text Data” (http://pandas.pydata.org/pandas-docs/stable/text.html) 节 ， 或 者 阅读 3.14 节 
的 相关 资源 。 
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3.11.3 ”案例 : 食谱 数据 库 

前 面 介 绍 的 这 些 向 量化 字符 串 操 作 方 法 非常 适合 用 来 处 理 现 实 中 那些 凌乱 的 数据 。 下 面 将 
通过 一 个 从 不 同 网 站 获取 的 公开 食谱 数据 库 的 案例 来 进行 演示 。 我 们 的 目标 是 将 这 些 食谱 
数据 解析 为 食材 列表 ， 这 样 就 可 以 根据 现 有 的 食材 快速 找到 食谱 。 


获取 数据 的 脚本 可 以 在 https://github.com/fictivekin/openrecipes 上 找到 ， 那 里 还 有 最 新 版 的 
数据 库 链 接 。 


截至 2016 年 春 ， 这 个 数据 集 已 经 有 30MB 了 。 可 以 通过 下 面 的 命令 下 载 并 解压 数据 : 


In[17]: # !curl -0 http://openrecipes.s3.amazonaws.com/recipeitems-latest.json.gz 
# !gunzip recipeitems-latest.json.gz 


这 个 数据 库 是 JSON 格式 的 ， 来 试 试 通过 pd.read_json 读 取 数据 : 


In[18]: tr 
































recipes = pd.read_json('recipeitems-latest.json') 
except ValueError as e: 
print("ValueError:", e) 


ValueError: Trailing data 


糟糕 ! 我 们 得 到 的 竞 然 是 提示 数据 里 有 “trailing data” (数据 断 行 ) 的 ValueError 错误 。 
从 网 上 搜索 这 个 错误 ，f 得 知 原因 好 像 是 虽然 文件 中 的 每 一 行 都 是 一 个 有 效 的 JSON 对 象 ， 
但 是 全 文 却 不 是 这 样 。 来 看 看 文件 是 不 是 这 样 : 

In[19]: with open('recipeitems-latest.json') as f: 


Line = f.readLine() 
pd.read_json(line).shape 





Out[19]: (2, 12) 


显然 每 一 行 都 是 一 个 有 效 的 JSON 对 象 ， 因 此 需要 将 这 些 字符 串 连 接 在 一 起 。 解 决 这 个 问 
题 的 一 种 方法 就 是 新 建 一 个 字符 串 ， 将 所 有 行 JSON 对 象 连接 起 来 ， 然 后 再 通过 pd.read_ 
json 来 读 取 所 有 数据 : 


In[29]: # 将 文件 内 容 读 取 成 Python 数组 
with open('recipeitems-latest.json', 'r') as f: 
# 提取 每 一 行内 容 
data = (line.strip() for line in f) 
# 将 所 有 内 容 合 并 成 一 个 列表 
data_json = "[{0}]".format(','.join(data)) 
# 用 JSON 形 式 读 取 数 据 


recipes = pd.read_json(data_json) 














In[21]: recipes.shape 
Out[21]: (173278, 17) 


这 样 就 会 看 到 将 近 20 万 份 食谱 ， 共 17 列 。 抽 一 行 看 看 具体 内 容 : 


In[22]: recipes.iloc[0] 
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Out[22]: 


_id {'$oid': '5160756b96cc62079cc2db15'} 
cookTime PT30M 
creator NaN 
dateModified NaN 
datePubLished 2013-03-11 
description Late Saturday afternoon，after Marlboro Man ha... 
image http://static.thepioneerwoman.com/cooking/file... 
ingredients Biscuits\n3 cups All-purpose Flour\n2 Tablespo... 
name Drop Biscuits and Sausage Gravy 
prepTime PT10M 
recipeCategory NaN 
recipeInstructions NaN 
recipeYield 12 
source thepioneerwoman 
totalTime NaN 
ts {'$date': 1365276011104} 
url http://thepioneerwoman.com/cooking/2013/03/dro... 


Name: 0, dtype: object 
这 里 有 一 堆 信 息 ， 而 且 其 中 有 不 少 都 和 从 网 站 上 抓 取 的 数据 一 样 ， 字 有 段 形 式 混乱 。 值 得 关 
注 的 是 ， 食 材 列表 是 字符 串 形 式 ， 我 们 需要 从 中 抽取 感 兴趣 的 信息 。 下 面 来 仔细 看 看 这 个 


字段 : 











In[23]: recipes.ingredients.str.len().describe() 


Out[23]: count 173278.000000 


mean 244.617926 
std 146.705285 
min 0.000000 
25% 147.000000 
50% 221.000000 
75% 314.000000 
max 9067 .000000 


Name: ingredients, dtype: float64 
食材 列表 平均 250 个 字符 ， 最 短 的 字符 串 是 0， 最 长 的 竟然 接近 1 万 字符 ! 
出 于 好 奇 心 ， 来 看 看 这 个 拥有 最 长 食材 列表 的 究 竞 是 哪 道 菜 : 


In[24]: recipes.name[np.argmax(recipes.ingredients.str.len())] 











Out[24]: 'Carrot Pineapple Spice &amp; Brownie Layer Cake with Whipped Cream 
&amp; Cream Cheese Frosting and Marzipan Carrots' 


从 名 字 就 可 以 看 出 ， 这 绝对 是 个 复杂 的 食谱 。 
我 们 还 可 以 再 做 一 些 累 计 探 索 ， 例 如 看 看 哪些 食谱 是 早餐 : 


In[33]: recipes.description.str.contains('[Bb]reakfast').sum() 





Out[33]: 3524 


或 者 看 看 有 多 少食 谱 用 肉桂 (cinnamon) 作为 食材 : 





In[34]: recipes.ingredients.str.contains('[Cc]innamon').sum() 


Out[34]: 10 


还 可 以 看 看 究竟 是 哪些 食谱 里 把 肉 相 
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E 错 写成 了 “cinamon”: 


In[27]: recipes.ingredients.str.contains('[Cc]inamon').sum() 


Out[27]: 11 


这 些 基本 的 数据 探索 都 可 以 用 Pandas 的 字符 串 工具 来 处 至 














数据 清理 工作 。 








1. 制作 简易 的 美食 推荐 系统 
现在 让 我 们 更 进一步 ， 来 制作 一 个 简易 的 美食 推荐 系统 : 如 果 用 户 提供 一 些 食材 ， 系 统 
就 会 推荐 使 用 了 所 有 食材 的 食谱 。 这 说 起 来 是 容易 ， 但 是 由 于 大 量 不 规则 (heterogeneity ) 
数据 的 存在 ， 这 个 任务 变 得 十 分 复杂 ， 例 如 并 没有 一 个 简单 直接 的 办 法 可 以 从 每 一 行 数据 


中 清理 出 一 份 干净 的 食材 列表 
表 ， 然 后 通过 简单 搜索 判断 这 





料 和 调味 料 : 
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团 















































有 ，Python 非常 适合 进行 类 似 的 











此 ， 我 们 在 这 里 简化 处 理 : 首先 提供 一 些 常见 食材 列 


食材 是 否 在 食谱 中 。 为 了 简化 任务 ， 这 里 只 列举 常用 的 香 


In[28]: spice_List = ['salt', 'pepper', 'oregano', 'sage', 'parsley', 
'rosemary', 'tarragon', 'thyme', 'paprika', 'cumin'] 


现在 就 可 以 通过 一 个 由 True 与 False 构成 的 布尔 类 型 的 DataFrame 来 判断 食材 是 否 出 现在 


某 个 食谱 中 : 


In[29]: 
import re 


spice df = pd.DataFrame( 


spice_df.he 


Out[29]: 


dict((spice, recipes.ingredients.str.contains(spice, re.IGNORECASE)) 
for spice in spice list)) 


ad() 


cumin oregano paprika parsley pepper rosemary 


False 
False 

True 
False 
False 


上 WP 请 叫 





False 
False 
False 
False 
False 


False 
False 
False 
False 
False 


False 
False 
False 
False 
False 


现在 ， 来 找 一 份 使 用 了 欧 芹 (parsley) 


out[30]: 10 


最 后 只 找到 了 十 份 同 时 包含 这 三 种 食材 的 食谱 ， 让 我 们 用 索引 看 看 究竟 是 


False 
False 

True 
False 
False 


False 
False 
False 
False 
False 


sage 

True 
False 
False 
False 
False 


salt tar 
False 
False 
True 
False 
False 





ragon 
False 
False 
False 
False 
False 





thyme 
False 
False 
False 
False 
False 


、 辣 椒 粉 (paprika) 和 龙 蒿 叶 (tarragon) 这 三 种 食 
材 的 食谱 。 我 们 可 以 通过 3.13 节 介 绍 的 DataFrame 的 query() 方法 来 快速 完成 计算 : 


In[30]: selection = spice_df.query('parsLey & paprika & tarragon ' ) 
len(selection) 





哪些 食谱 : 
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In[31]: recipes.name[selection.index] 


Out[31]: 2069 ALL cremat with a Little Gem, dandelion and wa... 
74964 Lobster with Thermidor butter 
93768 Burton's Southern Fried Chicken with White Gravy 
113926 Mijo's Slow Cooker Shredded Beef 
137686 Asparagus Soup with Poached Eggs 
140530 Fried Oyster Po'boys 
158475 Lamb shank tagine with herb tabbouleh 
158486 Southern fried chicken in buttermilk 
163175 Fried Chicken Sliders with Pickles + Slaw 
165243 Bar Tartine Cauliflower Salad 


Name: name, dtype: object 


现在 已 经 将 搜索 范围 缩小 到 了 原来 近 两 万 份 食谱 的 两 千 分 之 一 了 ， 这 样 就 可 以 从 这 个 小 集 
合 中 精 挑 细 选 出 中 意 的 食谱 。 


2. 继续 完善 美食 推荐 系统 

希望 这 个 示例 能 让 你 对 Pandas 字符 串 方 法 可 以 高 效 解决 哪些 数据 清理 问题 有 个 初步 概念 。 
当然 ， 如 果 要 建立 一 个 稳定 的 美食 推荐 系统 ， 还 需要 做 大 量 的 工作 ! 从 每 个 食谱 中 提取 完 
整 的 食材 列表 是 这 个 任务 的 重 中 之 重 。 不 过 ， 由 于 食材 的 书写 格式 千奇百怪 ， 解 析 它 们 需 
要 耗费 大 量 时 间 。 这 其 实 也 揭示 了 数据 科学 的 真相 一 一 真实 数据 的 清洗 与 整理 工作 往往 会 
占据 的 大 部 分 时 间 ， 而 使 用 Pandas 提供 的 工具 可 以 提高 你 的 工作 效率 。 


3.12 ”处 理 时 间 序 列 


由 于 Pandas 最 初 是 为 金融 模型 而 创建 的 ， 因 此 它 拥有 一 些 功能 非常 强大 的 日 期 、 时间、 带 
时 间 索 引 数据 的 处 理工 具 。 本 节 将 介绍 的 日 期 与 时 间 数 据 主要 包含 三 类 。 


。 时 间 惟 表示 某 个 具体 的 时 间 点 (例如 2015 年 7 月 4 日 上 午 7 点 )。 

。 时 间 间 隔 与 周期 表示 开始 时 间 点 与 结束 时 间 点 之 间 的 时 间 长 度 ， 例 如 2015 年 ( 指 的 是 
2015 年 1 月 1 日 至 2015 年 12 月 31 日 这 段 时 间 间 隔 )。 周 期 通常 是 指 一 种 特殊 形式 的 
时 间 间 隔 , 每 个 间隔 长 度 相同 ,彼此 之 间 不 会 重合 (例如 ,以 24 小 时 为 周期 构成 每 一 天 )。 

。 时 间 增 量 (time delta) 或 持续 时 间 (duration) 表示 精确 的 时 间 长 度 (例如 ， 某 程序 运 
行 持 续 时 间 22.56 秒 )。 


在 本 节 内 容 中 ， 我 们 将 介绍 Pandas 中 的 3 种 日 期 /时 间 数 据 类 型 的 具体 用 法 。 由 于 篇 幅 有 
限 ， 后 文 无 法 对 Python 或 Pandas 的 时 间 序 列 工具 进行 详细 的 介绍 ， 仅 仅 是 通过 一 个 宽泛 
的 综述 ， 总 结 何 时 应 该 使 用 它们 。 在 开始 介绍 Pandas 的 时 间 序 列 工具 之 前 ， 我 们 先 简 单 介 
绍 一 下 Python 处 理 日 期 与 时 间 数据 的 工具 。 在 介绍 完 一 些 值得 深入 学 习 的 资源 之 后 ， 再 通 
过 一 些 简短 的 示例 来 演示 Pandas 处 理 时 间 序 列 数据 的 方法 。 


3.12.1 Python 的 日 期 与 时 间 工 具 


在 Python 标准 库 与 第 三 方 库 中 有 许多 可 以 表示 日 期 时间、 时 间 增 量 和 时 间 跨 度 
(timespan) 的 工具 。 尽 管 Pandas 提供 的 时 间 序 列 工 具 更 适合 用 来 处 理 数 据 科学 问题 ， 但 是 









































































































































了 解 Pandas 与 Python 标准 库 以 及 第 三 方 库 中 的 其 他 时 间 序 列 工具 之 间 的 关联 性 将 大 有 神 益 。 
1. 原生 Python 的 日 期 与 时 间 工 具 : datetime 与 dateutil 

Python 基本 的 日 期 与 时 间 功 能 都 在 标准 库 的 datetime 模块 中 。 如 果 和 第 三 方 库 dateutil 
模块 搭配 使 用 ， 可 以 快速 实现 许多 处 理 日 期 与 时 间 的 功能 。 例 如 ， 你 可 以 用 datetime 类 型 
创建 一 个 日 期 : 


In[1]: from datetime import datetime 
datetime(year=2015, month=7, day=4) 























Out[1]: datetime.datetime(2015, 7, 4, 0, 0) 


或 者 使 用 dateutil 模块 对 各 种 字符 串 格 式 的 日 期 进行 正确 解析 : 


In[2]: from dateutil import parser 
date = parser.parse("4th of July, 2015") 
date 


Out[2]: datetime.datetime(2015, 7, 4, 0, 0) 


一 旦 有 了 datetime 对 象 ， 就 可 以 进行 许多 操作 了 ， 例 如 打印 出 这 一 天 是 星期 几 : 


In[3]: date.strftime('%A') 
Out[3]: "Saturday' 


在 最 后 一 行 代码 中 ， 为 了 打印 出 是 星期 几 ， 我 们 使 用 了 一 个 标准 字符 串 格 式 (standard 
string format) 代码 "%A" ,你 可 以 在 Python 的 datetime 文档 (https://docs.python.org/3/library/ 
datetime.html) 的 “strftime” 节 (https://docs.python.org/3/library/datetime.html#strftime-and- 
strptime-behavior) 查 看 具体 信息 。 关 于 dateutil 的 其 他 日 期 功能 可 以 通过 dateutil 的 在 线 文 
档 (http://labix.org/python-dateutil) 学 习 。 还 有 一 个 值得 关注 的 程序 包 是 pytz (http://pytz. 
Sourceforge.net) ， 这 个 工具 解决 了 绝 大 多 数 时 间 序 列 数据 都 会 遇 到 的 难题 : 时区。 


datetime 和 dateutil 模块 在 灵活 性 与 易 用 性 方面 都 表现 出 色 ， 你 可 以 用 这 些 对 象 及 其 相 
应 的 方法 轻松 完成 你 感 兴 趣 的 任意 操作 。 但 如 果 你 处 理 的 时 间 数 据 量 比较 大 ， 那 么 速度 
就 会 比较 慢 。 就 像 之 前 介绍 过 的 Python 的 原生 列表 对 象 没有 NumPy 中 已 经 被 编码 的 数值 
类 型 数组 的 性 能 好 一 样 ，Python 的 原生 日 期 对 象 同 样 也 没有 NumPy 中 已 经 被 编码 的 日 期 
(encoded dates) 类 型 数组 的 性 能 好 。 
2. 时 间 类 型 数组 : NumPy 的 datetime64 类 型 
Python 原生 日 期 格式 的 性 能 弱点 促使 NumPy 团队 为 NumPy 增加 了 自己 的 时 间 序 列 类 型 。 
datetime64 类 型 将 日 期 编码 为 64 位 整数 ， 这 样 可 以 让 日 期 数组 非常 紧凑 〈 节 省 内 存 )。 
datetime64 需要 在 设置 日 期 时 确定 具体 的 输入 类 型 ; 

In[4]: import numpy as np 


date = np.array('2015-07-04', dtype=np.datetime64) 
date 

























































































Out[4]: array(datetime.date(2015, 7, 4), dtype='datetime64[D]') 


但 只 要 有 了 这 个 日 期 格式 ， 就 可 以 进行 快速 的 向 量化 运算 : 
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In[5]: date + np.arange(12) 


Out[5]: 

array(['2015-07-04', '2015-07-05', '2015-07-06','2015-07-07'， 
'2015-07-08',，'2015-07-09','2015-07-10'，'2015-07-11'， 
'2015-07-12', '2015-07-13', '2015-07-14',，'2015-07-15']，, 
dtype='datetime64[D]') 


因为 NumPy 的 datetime64 数组 内 元 素 的 类 型 是 统一 的 ， 所 以 这 种 数组 的 运算 速度 会 比 


Python 的 datetime 对 象 的 运算 速度 快 很 多 ， 尤 其 是 在 处 理 较 大 数组 时 (关于 向 量化 运算 的 
内 容 已 经 在 2.3 市 介绍 过 )。 


datetime64 与 timedelta64 对 象 的 一 个 共同 特点 是 ， 它 们 都 是 在 基本 时 间 单 位 
(fundamental time unit) 的 基础 上 建立 的 。 由 于 datetime64 对 象 是 64 位 精度 ， 所 以 可 编码 
的 时 间 范 围 可 以 是 基本 单元 的 2” 倍 。 也 就 是 说 ，datetime64 在 时 间 精 度 (time resolution ) 
与 最 大 时 间 跨 度 (maximum time span) 之 间 达 成 了 一 种 平衡 。 


比如 你 想 要 一 个 时 间 纳 秒 (nanosecond，ns) 级 的 时 间 精 度 ， 那 么 你 就 可 以 将 时 间 编 码 到 
0~2% 纳 秒 或 600 年 之 内 ，NumPy 会 自动 判断 输入 时 间 需 要 使 用 的 时 间 单 位 。 例 如 ， 下 面 
是 一 个 以 天 为 单位 的 日 期 : 


In[6]: np.datetime64('2015-07-04') 









































Out[6]: numpy.datetime64('2015-07-04') 

而 这 是 一 个 以 分 钟 为 单位 的 日 期 : 
In[7]: np.datetime64('2015-07-04 12:00') 
Out[7]: numpy.datetime64('2015-07-04T12:00') 


需要 注意 的 是 ， 时 区 将 自动 设置 为 执行 代码 的 操作 系统 的 当地 时 区 。 你 可 以 通过 各 种 格式 
的 代码 设置 基本 时 间 单 位 。 例 如 ， 将 时 间 单 位 设置 为 纳 秒 : 


In[8]: np.datetime64('2015-07-04 12:59:59.50', 'ns') 








Out[8]: numpy.datetime64('2015-07-04T12:59:59.500000000') 


NumPy 的 datetime64 文档 (http://docs.scipy.org/doc/numpy/reference/arrays.datetime.html) 
总 结 了 所 有 支持 相对 与 绝对 时 间 跨 度 的 时 间 与 日 期 单位 格式 代码 ， 表 3-6 对 此 总 结 如 下 。 


表 3-6: 日 期 与 时 间 单 位 格式 代码 
































代码 ”含义 时 间 跨 度 (相对 ) ”时 间 跨 度 (绝对 ) 

Y 年 (year) 土 9.2e18 年 [9.2e18 BC, 9.2e18 AD 
M 月 (month) 土 7.6e17 年 [7.6e17 BC, 7.6e17 AD 
W 周 (week) 土 1.7e17 年 [1.7el17 BC, 1.7e17 AD 
D 日 (day) 土 2.5e16 年 [2.5e16 BC, 2.5e16 AD 
h 时 (hour) 土 1.0e15 年 [1.0e15 BC, 1.0e15 AD 
m 分 (minute) 土 1.7e13 年 [1.7e13 BC, 1.7e13 AD 
s 秒 (second) 土 2.9e12 年 [ 2.9e9 BC, 2.9e9 AD] 
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代码 ”含义 时 间 跨 度 (相对 ) ”时 间 跨 度 (绝对 ) 

ms 毫秒 (millisecond) 土 2.9e9 年 [2.9e6 BC, 2.9e6 AD] 

us 微 秒 (microsecond ) 土 2.9e6 年 [290301 BC, 294241 AD] 
ns 纳 秒 (nanosecond) 土 292 年 [ 1678 AD, 2262 AD] 

ps 皮 秒 (picosecond) 土 106 天 [ 1969 AD, 1970 AD] 

fs 飞 秒 (femtosecond) 土 2.6 小 时 [1969 AD, 1970 AD] 

as 原 秒 (attosecond ) 土 9.2 秒 [ 1969 AD, 1970 AD] 








对 于 日 常 工作 中 的 时 间 数 据 类 型 ， 默 认 单 位 都 用 纳 秒 datetime64[ns]， 因 为 用 它 来 表示 时 
间 范 围 精度 可 以 请 足 绝 大 部 分 需求 。 
最 后 还 需要 说 明 一 点 ， 虽 然 datetime64 弥补 了 Python 原生 的 datetime 类 型 的 不 足 ， 但 它 


缺少 了 许多 datetime (尤其 是 dateutil) 原本 具备 的 便捷 方法 与 函数 ， 具 体内 容 请 参考 
NumPy 的 datetime64 文档 (http://docs.scipy.org/doc/numpy/reference/arrays.datetime.html) 。 


3. Pandas 的 日 期 与 时 间 工 具 : 理想 与 现实 的 最 佳 解决 方案 

Pandas 所 有 关于 日 期 与 时 间 的 处 理 方法 全 部 都 是 通过 Timestamp 对 象 实现 的 ， 它 利用 
numpy.datetime64 的 有 效 存 储 和 向 量化 接口 将 datetime 和 dateutil 的 易 用 性 有 机 结合 起 
来 。Pandas 通过 一 组 Timestamp 对 象 就 可 以 创建 一 个 可 以 作为 Series 或 DataFrame 索引 的 
DatetimeIndex， 我 们 将 在 后 面 介绍 许多 类 似 的 例子 。 


例如 ， 可 以 用 Pandas 的 方式 演示 前 面 介绍 的 日 期 与 时 间 功 能 。 我 们 可 以 灵活 处 理 不 同 格式 
的 日 期 与 时 间 字 符 串 ， 获 取 某 一 天 是 星期 几 ， 
In[9]: import pandas as pd 


date = pd.to_datetime("4th of July, 2015") 
date 






































Out[9]: Timestamp('2015-07-04 00:00:00') 

In[10]: date.strftime('%A') 

Out[10]: "Saturday' 

另外 ， 也 可 以 直接 进行 NumPy 类 型 的 向 量化 运算 : 

In[11]: date + pd.to timedelta(np.arange(12), 'D') 

Out[11]: DatetimeIndex(['2015-07-04' ，'2015-07-05' ，'2015-07-06' ，'2015-07-07 ' ， 
"2015-07-08' ，'2015-07-09' ，'2015-07-10' ，'2015-07-11 ' ， 
"2015-07-12' ，'2015-07-13' ，'2015-07-14' ，'2015-07-15'] ， 


dtype='datetime64[ns]', freq=None) 


下 面 将 详细 介绍 Pandas 用 来 处 理 时 间 序 列 数 据 的 工具 。 


3.12.2 Pandas 时 间 序 列 : 用 时 间作 索引 
Pandas 时 间 序 列 工具 非常 适合 用 来 处 理 带 时 间 惟 的 索引 数据 。 例 如 ， 我 们 可 以 通过 一 个 时 
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间 索 引 数 据 创 建 一 个 Series 对 象 : 
In[12]: index = pd.DatetimeIndex(['2014-07-04' ，'2014-08-04 ' ， 
"2015-07-04' ，'2015-08-04']) 
data = pd.Series([0, 1, 2, 3], index=index) 


data 

Out[12]: 2014-07-04 C0 
2014-08-04 1 
2015-07-04 2 
2015-08-04 3 


dtype: int64 


有 了 一 个 带 时 间 索 引 的 Series 之 后 ， 就 能 用 它 来 演示 之 前 介绍 过 的 Series 取 值 方法 ， 可 
以 直接 用 日 期 进行 切片 取 值 : 


In[13]: data['2014-07-04':'2015-07-04'] 








Out[13]: 2014-07-04 0 
2014-08-04 
2015-07-04 2 
dtype: int64 


另外 ， 还 有 一 些 仅 在 此 类 series 上 可 用 的 取 值 操作 ， 例 如 直接 通过 年 份 切片 获取 该 年 的 
数据 : 


In[14]: data['2015'] 





Out[14]: 2015-07-04 2 
2015-08-04 3 
dtype: int64 


下 面 将 介绍 一 些 示例 ， 体 现 将 日 期 作为 索引 为 运算 带 来 的 便利 性 。 在 此 之 前 ， 让 我 们 仔细 
看 看 现 有 的 时 间 序 列 数据 结构 。 


3.12.3 ”Pandas 时 间 序 列 数据 结构 

本 节 将 介绍 Pandas 用 来 处 理 时 间 序 列 的 基础 数据 类 型 。 

。 针对 时 间 惟 数据 ，Pandas 提供 了 Timestamp 类 型 。 与 前 面 介 绍 的 一 样 ， 它 本 质 上 是 

Python 的 原生 datetime 类 型 的 替代 品 ， 但 是 在 性 能 更 好 的 numpy.datetime64 类 型 的 基 

础 上 创建 。 对 应 的 索引 数据 结构 是 DatetimeIndex。 

。 针对 时 间 周 期 数据 ，Pandas 提供 了 Period 类 型 。 这 是 利用 numpy.datetime64 类 型 将 固 

定 频率 的 时 间 间 隔 进 行 编码 。 对 应 的 索引 数据 结构 是 PeriodIndex。 

。 针对 时 间 增 量 或 持续 时 间 ，Pandas 提供 了 Timedelta 类 型 。Timedelta 是 一 种 代 杰 Python 
原生 datetime.timedelta 类 型 的 高 性 能 数据 结构 ， 同 样 是 基于 numpy.timedelta64 类 型 。 
对 应 的 索引 数据 结构 是 TimedeLtaIndex。 

最 基础 的 日 期 /时间 对 象 是 Tinestamp 和 DatetimeIndex。 这 两 种 对 象 可 以 直接 使 用 ， 最 常用 

的 方法 是 pd.to_datetime() 国 数 ， 它 可 以 解析 许多 日 期 与 时 间 格 式 。 对 pd.to_datetime() 传 

递 一 个 日 期 会 返回 一 个 Timestamp 类 型 ， 传 递 一 个 时 间 序 列 会 返回 一 个 DatetimeIndex 类 型 : 
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In[15]: dates = pd.to_datetime([datetime(2015，7，3)，'4th of JuLy，2015 ' ， 
'2015-Jul-6', '07-07-2015', '20150708']) 
dates 


Out[15]: DatetimeIndex(['2015-07-03' ，'2015-07-04' ，'2015-07-06' ，'2015-07-07 ' ， 
'2015-07-08']， 
dtype='datetime64[ns]', freq=None) 
任何 DatetimeIndex 类 型 都 可 以 通过 to_period() 方法 和 一 个 频率 代码 转换 成 PeriodIndex 
类 型 。 下 面 用 'D' 将 数据 转换 成 单 日 的 时 间 序 列 : 


In[16]: dates.to_period('D') 

















Out[16]: PeriodIndex(['2015-07-03', '2015-07-04', '2015-07-06','2015-07-07'， 
'2015-07-08']， 
dtype='int64', freq='D') 


当 用 一 个 日 期 减 去 另 一 个 日 期 时 ， 返 回 的 结果 是 TimedeltaIndex 类 型 : 


In[17]: dates - dates[0] 























Out[17]: 
TimedeltaIndex(['0 days', '1 days', '3 days', '4 days', '5 days']， 
dtype='timedelta64[ns]', freq=None) 


有 规律 的 时 间 序 列 : pd.date_range() 

为 了 能 更 简便 地 创建 有 规律 的 时 间 序 列 ，Pandas 提供 了 一 些 方法 : pd.date_range() 可 以 
处 理 时 间 惟 、pd.period_range() 可 以 处 理 周 期 、pd.timedelta_range() 可 以 处 理 时 间 间 
隔 。 我 们 已 经 介绍 过 ，Python 的 range() 和 NumPy 的 np.arange() 可 以 用 起 点 、 终 点 和 步 
长 (可 选 的 ) 创建 一 个 序列 。pd.date_range() 与 之 类 似 ， 通 过 开始 日 期 、 结 束 日 期 和 频率 
代码 (同样 是 可 选 的 ) 创建 一 个 有 规律 的 日 期 序列 ， 默 认 的 频率 是 天 : 


In[18]: pd.date_range('2015-07-03', '2015-07-10') 











Out[18]: DatetimeIndex(['2015-07-03' ，'2015-07-04' ，'2015-07-05' ，'2015-07-06 ' ， 
"2015-07-07' ，'2015-07-08' ，'2015-07-09' ，'2015-07-10'] ， 
dtype='datetime64[ns]', freq='D') 


此 外 ， 日 期 范围 不 一 定 非 是 开始 时 间 与 结束 时 间 ， 也 可 以 是 开始 时 间 与 周期 数 periods: 


In[19]: pd.date_range('2015-07-03', periods=8) 








Out[19]: DatetimeIndex(['2015-07-03' ，'2015-07-04' ，'2015-07-05' ，'2015-07-06 ' ， 
"2015-07-07' ，'2015-07-08' ， "2015-07-09' ，'2015-07-10 '] ， 
dtype='datetime64[ns]', freq='D') 


你 可 以 通过 freq 参数 改变 时 间 间 隔 ， 默 认 值 是 0D。 例 如 ， 可 以 创建 一 个 按 小 时 变化 的 时 间 发 ; 


In[20]: pd.date_range('2015-07-03', periods=8, freq='H') 





Out[20]: DatetimeIndex(['2015-07-03 00:00:00'，'2015-07-03 01:00:00 ' ， 
"2015-07-03 02:00:00' ，'2015-07-03 03:00:00  ， 
"2015-07-03 04:00:00' ，'2015-07-03 05:00:00  ， 
'2015-07-03 06:00:00' ，'2015-07-03 07:00:00' ] ， 
dtype='datetime64[ns]', freq='H') 
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如 果 要 创建 一 个 有 规律 的 周期 或 时 间 间 隔 序 列 ， 有 类 似 的 函数 pd.period_range() 和 
pd.timedelta_range()。 下面 是 一 个 以 月 为 周期 的 示例 


In[21]: pd.period_range('2015-07', periods=8, freq='M') 





Out[21]: 
PeriodIndex(['2015-07', '2015-08', '2015-09', '2015-10', '2015-11', '2015-12'，, 
'2016-01','2016-02']， 
dtype="'int64', freq='M') 


以 及 一 个 以 小 时 递增 的 序列 : 
In[22]: pd.timedelta_range(0, periods=10, freq='H') 
Out[22]: 
TimedeltaIndex(['00:00:00', '01:00:00', '02:00:00','03:00:00'，,'04:00:00'，, 


'05:00:00'，,'06:00:00'，'07:00:00'，'08:00:00'，'09:00:00']， 
dtype='timedelta64[ns]', freq='H') 


擎 握 Pandas 频率 代码 是 使 用 所 有 这 些 时 间 序 列 创建 方法 的 必要 条 件 。 接 下 来 ， 我 们 将 总 结 
这 些 代码 。 


3.12.4 ”时 间 频 率 与 偏 移 量 


Pandas 时 间 序 列 工 具 的 基础 是 时 间 频 率 或 偏 移 量 (offset) 代码 。 就 像 之 前 见 过 的 D (day) 
和 H (hour) 代码 ， 我 们 可 以 用 这 些 代码 设置 任意 需要 的 时 间 间 隔 。 表 3-7 总 结 了 主要 的 频 
率 代码 。 


表 3-7: Pandas 频 率 代码 














代码 。 描述 代码 描述 

D 天 (calendar day， 按 日 历 算 ， 含 双休日 ) 日 天 (business day， 仅 含 工作 日 ) 

W 周 (weekly) 

M 月 末 (month end) BM 月 未 (business month end， 仅 含 工 作 日 ) 
Q 季 末 (quarter end) BQ 季 末 (business quarter end， 仅 含 工 作 日 ) 
S 年 末 (year end) BA 年 末 (business year end， 仅 含 工 作 日 ) 
H 小 时 (hours) BH 小 时 (business hours， 工 作 时 间 ) 

T 分 钟 (minutes) 

S 秒 (seconds) 

L 毫秒 (milliseonds ) 

U 微 秒 (microseconds ) 

N 纳 秒 (nanoseconds) 


月 、 季 、 年 频率 都 是 具体 周期 的 结束 时 间 (月 末 、 季 末 、 年 末 )， 而 有 一 些 以 S (start， 开 
始 ) 为 后 组 的 代码 表示 日 期 开始 (如 表 3-8 所 示 )。 








表 3-8: 带 开 始 索引 的 频率 代码 














代码 频率 

MS 月 初 (month start) 

BMS 月 初 (business month start， 仅 含 工作 日 ) 
QS 季 初 (quarter start) 

BQS 季 初 (business quarter start， 仅 含 工作 日 ) 
AS 年 初 (year start) 

BAS 年 初 (business year start， 仅 含 工作 日 ) 








另外 ， 你 可 以 在 频率 代码 后 面 加 三 位 月 份 缩写 字母 来 改变 季 、 年 频率 的 开始 时 间 。 

。 Q-JAN、BQ-FEB、QS-MAR、BQS-APR 等 。 

。 A-JAN、BA-FEB、AS-MAR、BAS-APR 等 。 

同 理 ， 也 可 以 在 后 面 加 三 位 星期 缩写 字母 来 改变 一 周 的 开始 时 间 。 

。 W-SUN、W-MON、W-TUE、W-WED 等 。 

在 这 些 代码 的 基础 上 ， 还 可 以 将 频率 组 合 起 来 创建 的 新 的 周期 。 例 如 ， 可 以 用 小 时 (H) 
和 分 钟 (T) 的 组 合 来 实现 2 小 时 30 分 钟 ; 


In[23]: pd.timedelta_range(0, periods=9, freq="2H30T") 









































Out[23]: 
TimedeltaIndex(['00:00:00', '02:30:00', '05:00:00','07:30:00'，,'10:00:00'， 
'12:30:00'，,'15:00:00'，'17:30:00'，'20:00:00']， 
dtype='timedelta64[ns]', freq='150T') 


所 有 这 些 频率 代码 都 对 应 Pandas 时 间 序 列 的 偏 移 量 ， 具 体内 容 可 以 在 pd.tseries.offsets 
模块 中 找到 。 例 如 ， 可 以 用 下 面 的 方法 直接 创建 一 个 工作 日 偏 移 序 列 : 


In[24]: from pandas.tseries.offsets import BDay 
pd.date_range('2015-07-01', periods=5, freq=BDay()) 




















Out[24]: DatetimeIndex(['2015-07-01' ，'2015-07-02' ，'2015-07-03' ，'2015-07-06 ' ， 
"2015-07-07 ' ] ， 
dtype='datetime64[ns]', freq='B') 
关于 时 间 频 率 与 偏 移 量 的 更 多 内 容 ， 请 参考 Pandas 在 线 文 档 “Date Offset objects”(http:// 
pandas.pydata.org/pandas-docs/stable/timeseries.html#dateoffset-objects) 市 。 


3.12.5 重新 取样 、 迁 移 和 窗口 

用 日 期 和 时 间 直 观 地 组 织 与 获取 数据 是 Pandas 时 间 序 列 工具 最 重要 的 功能 之 一 。Pandas 
不 仅 支持 普通 索引 功能 (合并 数据 时 自动 索引 对 齐 、 直 观 的 数据 切片 和 取 值 方法 等 )， 还 
专 为 时 间 序 列 提供 了 额外 的 操作 。 
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下 面 让 我 们 用 一 些 股 票数 据 来 演示 这 些 功能 。 由 于 Pandas 最 初 是 为 金融 数据 模型 服务 
的 ， 因 此 可 以 用 它 非 常 方便 地 获取 金融 数据 。 例 如 ，pandas-datareader 程序 包 (可 以 通 


过 conda install pandas-datareader 进 
据 ， 包 含 Yahoo 财经 、Google 财经 和 


In[25]: from pandas_datareader import data 





们 女 


装 ) 知道 女 
其 他 数据 源 。 下 国 























上 何 从 一 些 可 用 的 数据 源 导 入 
i 来 导入 Google 的 历史 股票 价格 : 


goog = data.DataReader('G00G', start='2004', end='2016', 
data_source='google') 


goog.head() 


Out[25] : 
Date 
2004-08-19 
2004-08-20 
2004-08-23 
2004-08-24 
2004-08-25 


Open 


49.96 
50.69 
55.32 
55.56 
52.43 





High 


51.98 


出 于 简化 的 目的 ， 这 里 只 用 收盘 价 : 


In[26]: goog = goog['Close'] 


Low 


47.93 
50.20 
54.47 
S173 
51.89 


Close 


50.12 
54.10 
54.65 
52.38 
D52595 


VoLume 


NaN 
NaN 
NaN 
NaN 
NaN 














全 


了 





融 数 





设置 Matplotlib 之 后 ， 就 可 以 通过 plot() 画 出 可 视 化 图 了 (如 图 3-5 所 示 ) : 
In[27]: %matplotlib inline 
import matplotlib.pyplot as plt 
import seaborn; seaborn.set() 
In[28]: goog.pLot(); 
8B00 
700 
600 
500 
400 
300 
200 
100 
0 
BP B85 BP DN DY DY 
Date 











3-5: Google 收盘 价 随时 间 变 化 的 趋势 


1. 重新 取样 与 频率 转换 


处 理 时间 序 列 数据 时 ， 经 常 需要 按照 新 的 频率 (更 高 频率 、 更 低频 率 ) 对 数据 进行 重新 
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取样 。 你 可 以 通过 resample() 方法 解决 这 个 问题 ， 或 者 用 更 简单 的 asfreq() 方法 。 这 两 
个 方法 的 主要 差异 在 于 ，resample() 方法 是 以 数据 累计 (data aggregation) 为 基础 ， 而 
asfreq() 方法 是 以 数据 选择 (data selection) 为 基础 。 


看 到 Google 的 收盘 价 之 后 ， 让 我 们 用 两 种 方法 对 数据 进行 向 后 取样 (down-sample)。 这 里 
用 年 末 〈('BA' ， 最 后 一 个 工作 日 ) 对 数据 进行 重新 取样 (如 图 3-6 所 示 ) : 


In[29]: goog.plot(alpha=0.5, style='-') 
goog.resample('BA').mean().plot(style=':') 
goog.asfreq('BA').plot(style='--'); 
plt.legend(['input', 'resample', 'asfreq'], 

loc="'upper left'); 














200 

一 一 nput J 
700 resample 

~ ~ asireq 
MA 
500 7 
400 











3-6: 对 Google 股票 收盘 价 进行 重新 取样 


请 注意 这 两 种 取样 方法 的 差异 : 在 每 个 数据 点 上 ，resample 反映 的 是 上 一 年 的 均值 ， 而 
asfreq 反映 的 是 上 一 年 最 后 一 个 工作 日 的 收盘 价 。 


在 进行 向 前 取样 (up-sampling) 时 ，resample() 与 asfreq() 的 用 法 大 体 相 同 ， 不 过 重新 取 
样 有 许多 种 配置 方式 。 操 作 时 ， 两 种 方法 都 默认 将 向 前 取样 作为 缺失 值 处 理 ， 也 就 是 说 在 
里 面 填充 NaN。 与 前 面 介绍 过 的 pd.fillna() 函数 类 似 ，asfreq() 有 一 个 method 参数 可 以 
设置 填充 缺失 值 的 方式 。 下 面 将 对 工作 日 数据 按 天 进行 重新 取样 〈 即 包含 周末 )， 结 果 如 
图 3-7 所 示 : 


In[30]: fig, ax = plt.subplots(2, sharex=True) 
data = goog.iloc[:10] 

































































data.asfreq('D').plot(ax=ax[0], marker="'o') 


data.asfreq('D', method='bfill').plot(ax=ax[1], style='-o') 
data.asfreq('D', method='ffill').plot(ax=ax[1], style='--o') 
ax[1].legend(["back-fill", "forward-fill"]); 
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3-7: asfreq() 向 前 填充 与 向 后 填充 缺失 值 的 结果 对 比 








上 面 那 幅 图 是 原始 数据 : 非 工 作 日 的 股价 是 缺失 值 ， 所 以 不 会 出 现在 图 上 。 而 下 面 那 幅 
通过 向 前 填充 与 向 后 填充 这 两 种 方法 填补 了 缺失 值 。 

2. 时 间 迁 移 

另 一 种 常用 的 时 间 序 列 操作 是 对 数据 按时 间 进 行 迁移 。Pandas 有 两 种 解决 这 类 问题 的 方 
法 : shift() 和 tshift()。 简 单 来 说 ，shift() 就 是 迁移 数据 ， 而 tshift() 就 是 迁移 索引 。 
两 种 方法 都 是 按照 频率 代码 进行 迁移 。 

下 面 我 们 将 用 shift() 和 tshift() 这 两 种 方法 让 数据 迁移 900 天 (如 图 3-8 所 示 ) : 


In[31]: fig, ax = plt.subplots(3, sharey=True) 





A 









































# 对 数据 应 用 时 间 频 率 ， 用 向 后 填充 解决 缺失 值 
goog = goog.asfreq('D' ，method='pad ' ) 





goog.pLot(ax=ax[0]) 
goog.shift(900).pLot(ax=ax[1]) 
goog.tshift(900).plot(ax=ax[2]) 





# 设置 图 例 与 标签 
local_max = pd.to_datetime('2007-11-05') 
offset = pd.Timedelta(900, 'D') 











ax[0].Legend(['input']，Loc=2) 
ax[0].get xticklabels()[4].set(weight='heavy', color='red') 
ax[0].axvline(local_max, alpha=0.3, color='red') 


ax[1].legend(['shift(900)'], loc=2) 
ax[1].get xticklabels()[4].set(weight='heavy', color='red') 


ax[1].axvline(local_max + offset, alpha=0.3, color='red') 


ax[2].legend(['tshift(900)'], loc=2) 
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ax[2].get_xticklabels()[1].set(weight='heavy', color='red') 
ax[2].axvline(local_max + offset, alpha=0.3, color='red'); 





200 
700 





2006 2008 2010 2012 2014 
700 ”一 shiftf900) 


2006 2008 2010 2012 2014 
一 一 shif(900) 











图 3-8: 对 比 shift 与 tshift 方法 


我 们 会 发 现 ，shift(900) 将 数据 向 前 推进 了 900 天 ， 这 样 图 形 中 的 一 段 就 消失 了 (最 左 侧 
就 变 成 了 缺失 值 )， 而 tshift(969) 方法 是 将 时 间 索 引 值 向 前 推进 了 900 天 。 
这 类 迁移 方法 的 常见 使 用 场景 就 是 计算 数据 在 不 同时 段 的 差异 。 例 如 ， 我 们 可 以 用 迁移 后 
的 值 来 计算 Google 股票 一 年 期 的 投资 回报 率 (如 图 3-9 所 示 ) : 

In[32]: ROI = 100 * (goog.tshift(-365) / goog - 1) 


ROI.plot() 
plt.ylabel('% Return on Investment ' ); 











% Retum on Investment 
g 


-50 


2004 2006 2008 2010 2012 2014 
Date 











图 3-9: Google 股票 价格 当期 的 投资 回报 率 
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这 可 以 帮助 我 们 观察 Google 股票 的 总 体 特 征 : 从 图 中 可 以 看 出 ，Google 的 股票 在 IPO 刚 
刚 成 功 之 后 最 值得 投资 (图 里 的 趋势 很 直观 )， 在 2009 年 年 中 开始 衰退 。 

3. 移动 时 间 窗 口 

Pandas 处 理 时 间 序 列 数据 的 第 3 种 操作 是 移动 统计 值 (rolling statistics)。 这 些 指标 可 以 
通过 Series 和 DataFrame 的 roLLing() 属性 来 实现 ， 它 会 返回 与 groupby 操作 类 似 的 结果 
(详情 请 参见 3.9 节 )。 移 动 视图 (rolling view) 使 得 许多 累计 操作 成 为 可 能 。 

例如 ， 可 以 通过 下 面 的 代码 获取 Google 股票 收盘 价 的 一 年 期 移动 平均 值 和 标准 差 (如 
3-10 所 示 ) : 


In[33]: rolling = goog.rolling(365, center=True) 












































/说 























data = pd.DataFrame({'input': goog， 
"one-year rolling mean': rolling.mean(), 
"one-year rolling std': rolling.std()}) 
ax = data.plot(style=['-', '--', ':']) 
ax. lines[0].set_alpha(0.3) 





一 一 nput 
~ ~ one-year rolling_mean 
700 pe one-year rolling_std 











图 3-10: Google 股票 收盘 价 的 移动 统计 值 
与 groupby 操作 一 样 ，aggregate() 和 apply() 方法 都 可 以 用 来 自 定 义 移动 计算 。 


3.12.6 更 多 学 习 资料 

在 这 一 节 中 ， 我 们 只 是 简单 总 结 了 Pandas 时 间 序 列 工具 的 一 些 最 常用 功能 ， 更 详细 的 介 
绍 请 参考 Pandas 在 线 文档 “Time Series / Date” (http://pandas.pydata.org/pandas-docs/stable/ 
timeseries.html) 节 。 

另 一 个 优秀 的 资源 是 Wes McKinney (Pandas 创建 者 ) 所 著 的 《利用 Python 进行 数据 分 
析 》。 虽 然 这 本 书 已 经 有 些 年 头 了 ， 但 仍然 是 学 习 Pandas 的 好 资源 ， 尤 其 是 这 本 书 重点 介 


























A 
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绍 了 时 间 序 列 工具 在 商业 与 金融 业务 中 的 应 用 ， 作 者 用 大 量 笔墨 介绍 了 工作 日 历 、 时 区 和 
相关 主题 的 具体 内 容 。 
你 当然 可 以 用 IPython 的 帮助 功能 来 浏览 和 深入 探索 上 面 介绍 过 的 函数 与 方法 ， 我 个 人 认 
为 这 是 学 习 各 种 Python 工具 的 最 佳 途径 。 


3.12.7 案例 : 美国 西雅图 自行 车 统计 数据 的 可 视 化 

下 面 来 介绍 一 个 比较 复杂 的 时 间 序 列 数据 ， 统 计 自 2012 年 以 来 每 天 经 过 美国 西雅图 弗 
莱 蒙 特 桥 (http://www.openstreetmap.org/#map=17/47.64813/-122.34965) 上 的 自行 车 的 数 
量 ， 数 据 由 安装 在 桥 东 西 两 侧 人 行道 的 传感器 采集 。 小 时 统计 数据 可 以 在 http://data.seattle. 


gov/ 下 载 ， 还 有 一 个 数据 集 的 直接 下 载 链接 https://data.seattle.gov/Transportation/Fremont- 
Bridge-Hourly-Bicycle-Counts-by-Month-Octo/65db-xmok。 


截至 2016 年 夏 ，CSYV 数据 可 以 用 以 下 命令 下 载 : 


In[34]: 
# !CUrL -0 FremontBridge.csv 
# https://data.seattle.gov/api/views/65db-xm6k/rows.csv?accessType=DOWNLOAD 


下 好 数据 之 后 ， 可 以 用 Pandas 读 取 CSV 文件 获取 一 个 DataFrame。 我 们 将 Date 作为 时 间 
索引 ， 并 希望 这 些 日 期 可 以 被 自动 解析 : 
In[35] : 


data = pd.read_csv('FremontBridge.csv', index_col='Date', parse_dates=True) 
data.head() 



































Out[35]: Fremont Bridge West Sidewalk \\ 
Date 
2012-10-03 00:00:00 
2012-10-03 01:00:00 
2012-10-03 02:00:00 
2012-10-03 03:00:00 
2012-10-03 04:00:00 


六 上 上 
ODOO 


Fremont Bridge East Sidewalk 
Date 
2012-10-03 00:00:00 
2012-10-03 01:00:00 
2012-10-03 02:00:00 
2012-10-03 03:00:00 
2012-10-03 04:00:00 


为 了 方便 后 面 的 计算 ， 缩 短 数据 集 的 列 名 ， 并 新 增 一 个 Total 列 : 


In[36]: data.columns = ['West', 'East'] 
data[ 'Total'] = data.eval('West + East') 


现在 来 看 看 这 三 列 的 统计 值 : 


In[37]: data.dropna().describe() 


PUWUPOWD 
ODOOO 

















Out[37]: West East Total 
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count 33544.000000 33544.000000 33544.000000 


mean 61.726568 53.541706 115.268275 
std 83.210813 76.380678 144.773983 
min 0.000000 0.000000 0.000000 
25% 8.000000 7.000000 16.000000 
50% 33.000000 28.000000 64.000000 
75% 80.000000 66.000000 151.000000 
max 825.000000 717.000000 1186.000000 


1. 数据 可 视 化 
通过 可 视 化 ， 我 们 可 以 对 数据 集 有 一 些 直 观 的 认识 。 先 为 原始 数据 画图 (如 攻 
所 示 ) : 


In[38]: %matplotlib inline 
import seaborn; seaborn.set() 








刘 
ULD 

1 
一 
= 








In[39]: data.plot() 
plt.ylabel('Hourly Bicycle Count'); 








Hourly Bicycle Count 








3-11: 弗 莱 蒙 特 桥 每 小 时 通行 的 自行 车 数量 


在 图 中 显示 大 约 25 000 小 时 的 样本 数据 对 我 们 来 说 实在 太 多 了 ， 因 此 可 以 通过 重新 取样 将 
数据 转换 成 更 大 的 颗粒 度 ， 比 如 按 周 累计 (如 图 3-12 所 示 ) : 
In[40]: weekly = data.resample('W').sum() 


weekly.plot(style=[':', '--', '-']) 
plt.ylabel('Weekly bicycle count'); 


这 就 显示 出 一 些 季节 性 的 特征 了 。 正 如 你 所 想 ， 夏 天 骑 自 行车 的 人 比 冬 天 多 ， 而 且 某 个 季 
节 中 每 一 周 的 自行 车 数量 也 在 变化 〈 可 能 与 天 气 有 关 ， 详 情 请 参见 5.6 市 )。 











Weekly bicycle count 
i 


8 











图 3-12: 弗 莱 蒙特 桥 每 周 通行 的 自行 车 数量 


另 一 种 对 数据 进行 累计 的 简便 方法 是 用 pd.rolling_mean()* 函数 求 移动 平均 值 。 下 面 将 计 
算数 据 的 30 日 移动 均值 ， 并 让 图 形 在 窗口 居中 显示 (center=True) (如 图 3-13 所 示 ) : 
In[41]: daily = data.resample('D').sum() 


daily.rolling(30, center=True).mean().plot(style=[':', '--', '-']) 
plt.ylabel('mean of 30 days count'); 
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图 3-13; 每 30 日 自行 车 的 移动 日 均值 
由 于 窗口 太 小 ， 现 在 的 图 形 还 不 太平 请 。 我 们 可 以 用 另 一 个 移动 均值 的 方法 获得 更 平 请 的 








注 4: 原 书 代码 与 正文 不 符 。 作 者 在 正文 中 说 “用 pd.rolling_meaning() 函数 ”, 但 作者 代码 中 daily.rolling 
(30,center=True) .sum() 等 价 于 pd.rolling_sum()。 另 外 ，Pandas 文档 提 到 ，pd.rolling_mean 方法 即 
将 被 废弃 ， 用 DataFrame.rolling(center=False,window=D).mean() 的 形式 代替 pd.rolling_mean()。 考 虑 
到 原文 图 题 是 “30 天 自行 车 数量 *”， 因 此 按照 30 天 的 日 均值 作 相应 的 修改 。 一 一 译 者 注 
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图 形 ， 例 如 高 斯 分 布 时 间 窗 口 。 下 面 的 代码 (可视化 后 如 图 3-14 所 示 ) 将 设置 窗口 的 宽度 
(选择 50 天 ) 和 窗口 内 高 斯 平滑 的 宽度 (选择 10 天 ) : 























In[42]: 

daily.rolling(50, center=True, 
win_type='gaussian').sum(std=10).plot(style=[':', '--', '-']); 
140000 





ul Jan Jan Jul Jan | 
2014 2015 2016 











3-14: 用 高 斯 平滑 方法 处 理 每 周 自行 车 的 移动 均值 


2. 深入 挖掘 数据 
虽然 我 们 已 经 从 图 3-14 的 平 请 数据 图 观察 到 了 数据 的 总 体 趋 势 ， 但 是 它们 还 隐藏 了 一 些 有 
趣 的 特征 。 例 如 ， 我 们 可 能 希望 观察 单 日 内 的 小 时 均值 流量 ， 这 可 以 通过 GroupBy (详情 
请 参见 3.9 节 ) 操作 来 解决 (如 图 3-15 所 示 ) : 

In[43]: by_time = data.groupby(data.index.time).mean() 


hourly_ticks = 4 * 60 * 60 * np.arange(6) 
by_time.plot(xticks=hourly_ticks, style=[':', '--', '-']); 
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图 3-15: 每 小 时 的 自行 车 流量 
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小 时 均值 流量 呈现 出 十 分 明显 的 双 峰 分 布 特征 ， 早 间 峰 值 在 上 午 8 点 ， 晚 间 峰 值 在 下 午 5 点 。 
这 充分 反映 了 过 桥 上 下 班 往返 自行 车 流量 的 特征 。 进 一 步 分 析 会 发 现 ， 桥 西 的 高 峰 在 早上 ( 
为 人 们 每 天 会 到 西雅图 的 市 中 心 上 班 )， 而 桥 东 的 高 峰 在 下 午 (下 班 再 从 市 中 心 离开 )。 


我 们 可 能 还 会 对 周 内 每 天 的 变化 产生 兴趣 ， 这 时 依然 可 以 通过 一 个 简单 的 groupby 来 实现 
(如 图 3-16 所 示 ) : 
In[44]: by_weekday = data.groupby(data.index.dayofweek) .mean() 


by_weekday.index = ['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun'] 
by_weekday.plot(style=[':', '--', '-']); 
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图 3-16; 每 周 每 天 的 自行 车 流量 

工作 日 与 周末 的 自行 车 流量 差 十 分 显著 ， 周 一 到 周 五 通过 的 自行 车 差不多 是 周 六 、 周 日 的 
两 信 。 

看 到 这 个 特征 之 后 ， 让 我 们 用 一 个 复合 groupby 来 观察 一 周 内 工作 日 与 双休日 每 小 时 的 数 
据 。 用 一 个 标签 表示 双休日 和 工作 日 的 不 同 小 时 


In[45]: weekend = np.where(data.index.weekday < 5, 'Weekday', 'Weekend') 
by_time = data.groupby([weekend, data.index.time]).mean() 


现在 用 一 些 Matplotlib 工具 (详情 请 参见 4.10 节 ) 画 出 两 张 图 (如 图 3-17 所 示 ) : 


In[46]: import matplotlib.pyplot as plt 
fig, ax = plt.subplots(1, 2, figsize=(14, 5)) 
by_time.ix['Weekday'].plot(ax=ax[0], title='Weekdays', 




















xticks=hourly_ticks, style=[':', '--', '-']) 
by_time.ix['Weekend'].plot(ax=ax[1], title='Weekends', 
xticks=hourly_ticks, style=[':', '--', '-']); 
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3-17: 工作 日 与 双休日 每 小 时 的 自行 车 流量 





结果 很 有 意思 ， 我 们 会 发 现 工 作 日 的 自行 车 流量 呈 双 赂 通勤 模 式 (bimodal commute pattern )， 
而 到 了 周末 就 变 成 了 单 峰 娱 乐 模式 (unimodal recreational pattermn) 。 假 如 继续 挖掘 数据 应 该 还 
会 发 现 更 多 有 趣 的 信息 ， 比 如 研究 天 气 、 温 度 、 一 年 中 的 不 同时 间 以 及 其 他 因素 对 人 们 通勤 
模式 的 影响 。 关 于 更 深入 的 分 析 内 容 ， 请 参考 我 的 博文 “Is Seattle Really Seeing an Uptick In 
Cycling?” (https://jakevdp.github.io/blog/2014/06/10/is-seattle-really-seeing-an-uptick-in-cycling/) ， 
里 面 用 数据 的 子 集 作 了 一 些 分 析 。 我 们 将 在 5.6 市 继续 使 用 这 个 数据 集 。 


3.13 高 性 能 Pandas: eval() 与 query() 


前 面 的 章节 已 经 介绍 过 ，Python 数据 科学 生态 环境 的 强大 力量 建立 在 NumPy 与 Pandas 的 
基础 之 上 ， 并 通过 直观 的 语法 将 基本 操作 转换 成 C 语 言 : 在 NumPy 里 是 向 量化 /广播 运 
算 ， 在 Pandas 里 是 分 组 型 的 运算 。 虽 然 这 些 抽象 功能 可 以 简洁 高 效 地 解决 许多 问题 ， 但 是 
它们 经 常 需要 创建 临时 中 间 对 象 ， 这 样 就 会 占用 大 量 的 计算 时 间 与 内 存 。 

Pandas 从 0.13 版 开始 (2014 年 1 月 ) 就 引入 了 实验 性 工具 ， 让 用 户 可 以 直接 运行 C 语言 
速度 的 操作 ， 不 需要 十 分 费力 地 配置 中 间 数 组 。 它 们 就 是 eval() 和 query() 函数 ， 都 依赖 
于 Numexpr (https://github.com/pydata/numexp?) 程序 包 。 我 们 将 在 下 面 的 Notebook 中 演示 
其 用 法 ， 并 介绍 一 些 使 用 时 的 注意 事项 。 


3.13.1 query() 与 eval() 的 设计 动机 : 复合 代数 式 


前 面 已 经 介绍 过 ，NumPy 与 Pandas 都 支持 快速 的 向 量化 运算 。 例 如 ， 你 可 以 对 下 面 两 个 
数组 进行 求 和 : 


In[1]: import numpy as np 
rng = np.random.RandomState(42) 
x = rng.rand(1E6) 
y = rng.rand(1E6) 
%timeit x+y 



















































































100 loops, best of 3: 3.39 ms per Loop 
就 像 在 2.3 节 介 绍 的 那样 ， 这 样 做 比 普通 的 Python 循环 或 列表 综合 要 快 很 多 : 


In[2]: 
%timeit np.fromiter((xi + yi for xi, yi in ztp(x，y))， 











A 
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dtype=x.dtype，cCount=Len(x)) 
1 Loop，best of 3: 266 ms per Loop 


但 是 这 种 运算 在 处 理 复合 代数 式 (compound expression) 问题 时 的 效率 比较 低 ， 例 如 下 
的 表达 式 ， 


In[3]: mask = (x > 0.5) & (y < 0.5) 


由 于 NumPy 会 计算 每 一 个 代数 子 式 ， 因 此 这 个 计算 过 程 等 价 于 : 











过 











In[4]: tmp1 = (x > 0.5) 
tmp2 = (y < 0.5) 
mask = tmp1 & tmp2 


也 就 是 说 ， 每 段 中 间 过 程 都 需要 显 式 地 分 配 内 存 。 如 果 x 数组 和 y 数组 非常 大 ， 这 么 运算 
就 会 占用 大 量 的 时 间 和 内 存 销 耗 。Numexpr 程序 库 可 以 让 你 在 不 为 中 间 过 程 分 配 全 部 内 
存 的 前 提 下 ， 完 成 元 素 到 元 素 的 复合 代数 式 运算 。 虽 然 Numexpr 文档 (https://github.com/ 
pydata/numexpr) 里 提供 了 更 详细 的 内 容 ， 但 是 简单 点 儿 说 ， 这 个 程序 库 其 实 就 是 用 一 个 
NumPy 风格 的 字符 串 代 数 式 进行 运算 ; 

In[5]: import numexpr 


mask_numexpr = numexpr.evaluate('(x > 0.5) & (y < 0.5)') 
np.allclose(mask, mask_numexpr) 











Out[5]: True 


这 么 做 的 好 处 是 ， 由 于 Numexpr 在 计算 代数 式 时 不 需要 为 临时 数组 分 配 全 部 内 存 ， 因 此 计 
算 比 NumPy 更 高 效 ， 尤 其 适合 处 理 大 型 数组 。 马 上 要 介绍 的 Pandas 的 eval() 和 query() 
工具 其 实 也 是 基于 Numexpr 实现 的 。 


3.13.2 ”用 pandas.eval() 实 现 高 性 能 运算 
Pandas 的 eval() 函数 用 字符 串 代 数 式 实现 了 DataFrame 的 高 性 能 运算 ， 例 如 下 面 的 


DataFrame : 




















In[6]: import pandas as pd 
nrows, ncols = 100000，100 
rng = np.random.RandomState(42) 
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols)) 
for i in range(4)) 


如 果 要 用 普通 的 Pandas 方法 计算 四 个 DataFrame 的 和 ， 可 以 这 么 写 : 
In[7]: %timeit df1 + df2 + df3 + df4 
10 loops, best of 3: 87.1 ms per loop 

也 可 以 通过 pd.eval 和 字符 串 代 数 式 计算 并 得 出 相同 的 结果 : 


In[8]: %timeit pd.eval('df1 + df2 + df3 + df4') 





10 loops, best of 3: 42.2 ms per loop 
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这 个 eval() 版 本 的 代数 式 比 普通 方法 快 一 倍 〈 而 且 内 存 消耗 更 少 )， 结 果 也 是 一 样 的 : 


In[9]: np.aLLcLose(df1 + df2 + df3 + df4, 
pd.eval('df1 + df2 + df3 + df4')) 


Out[9]: True 


pd.eval() 支 持 的 运算 


从 Pandas v0.16 版 开始 ，pd.eval() 就 支持 许多 运算 了 。 为 了 演示 这 些 运算 ， 创 建 一 个 整数 
类 型 的 DataFrame: 








In[10]: df1, df2, df3, df4, df5 = (pd.DataFrame(rng.randint(0，1000，(100，3))) 
for i in range(5)) 


(1) 算术 运算 符 。pd.eval() 支持 所 有 的 算术 运算 符 ， 例 如 : 


In[11]: result1 = -df1 * df2 / (df3 + df4) - df5 
result2 = pd.eval('-df1 * df2 / (df3 + df4) - df5') 
np.allclose(result1, result2) 


Out[11]: True 
(2) 比较 运算 符 。pd.eval() 支持 所 有 的 比较 运算 符 ， 包 括 链 式 代数 式 (chained expression) : 
In[12]: result1 = (df1 < df2) & (df2 <= df3) & (df3 != df4) 
resuLt2 = pd.eval('df1 < df2 <= df3 != df4') 
np.allclose(result1, result2) 
Out[12]: True 
(3) 位 运算 符 。pd.eval() 支持 & (与 ) 和 | (或 ) 等 位 运算 符 : 
In[13]: result1 = (df1 < 0.5) & (df2 < 0.5) | (df3 < df4) 


result2 = pd.eval('(df1 < 0.5) & (df2 < 0.5) | (df3 < df4)') 
np.allclose(result1, result2) 





Out[13]: True 


另外 ， 你 还 可 以 在 布尔 类 型 的 代数 式 中 使 用 and 和 or 等 字面 值 : 


In[14]: result3 = pd.eval('(df1 < 0.5) and (df2 < 0.5) or (df3 < df4)') 
np.allclose(result1, result3) 





Out[14]: True 
(4) 对 和 象 属性 与 索引 。pd.eval() 可 以 通过 obj.attr 语法 获取 对 象 属性 ， 通 过 obj[index] 语 
法 获取 对 象 索引 : 
In[15]: result1 = df2.T[0] + df3.iloc[1] 
resuLt2 = pd.evaL('df2.T[0] + df3.iloc[1]') 
np.allclose(result1, result2) 
Out[15]: True 
(5) 其 他 运算 。 目 前 pd.eval() 还 不 支持 国 数 调 用 、 条 件 语句 、 循 环 以 及 更 复杂 的 和 运算。 如 
果 你 想 要 进行 这 些 运算 ， 可 以 借助 Numexpr 来 实现 。 
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3.13.3 ”用 DataFrame.evatL() 实 现 列 间 运 算 





由 于 pd.eval() 是 Pandas 的 顶层 函数 ， 因 此 DataFrame 有 一 个 eval() 方法 可 以 做 类 似 的 运 

















算 。 使 用 eval() 方法 的 好 处 是 可 以 借助 列 名 称 进行 运算 ， 示 例如 下 : 


In[16]: df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C']) 


df.head() 


Out[16]: A B C 
0.375506 0.406939 0.069938 
0.069087 0.235615 0.154374 
0.677945 0.433839 0.652324 
0.264038 0.808055 0.347197 
0.589161 0.252418 0.557789 


上 mw 六 请 叫 








如 有 果 用 前 面 介绍 的 pd.eval()， 就 可 以 通过 下 面 的 代数 式 计算 这 三 列 : 




















In[17]: result1 = (df['A'] + df['B']) / (df['c'] - 1) 
resuLt2 = pd.eval("(df.A + df.B) / (df.C - 1)") 
np.allclose(result1, result2) 


Out[17]: True 


而 DataFrame.eval() 方法 可 以 通过 列 名 称 实现 简 洁 的 代数 式 : 


In[18]: result3 = df.eval('(A+B)/(C- 1)') 
np.allclose(result1, result3) 


Out[18]: True 
请 注意 ， 这 里 用 列 名 称 作为 变量 来 计算 代数 式 ， 结 果 同 样 是 正确 的 。 
1. 用 DataFrame.eval() 新 增 列 


除了 前 面 介 绍 的 运算 功能 ，DataFrame.eval() 还 可 以 创建 新 的 列 。 还 月 


来 演示 ， 列 名 是 'A'、'B' 和 “5 : 
In[19]: df.head() 


Out[19] : A B C 
0 0.375506 0.406939 0.069938 
1 0.069087 0.235615 0.154374 
2 0.677945 0.433839 0.652324 
3 0.264038 0.808055 0.347197 
4 0.589161 0.252418 0.557789 














可 以 用 df.eval() 创建 一 个 新 的 列 'D' ， 然 后 赋 给 它 其 他 列 计算 的 值 : 


In[20]: df.eval('D = (A + B) / C', inplace=True) 


df.head() 
Out[20]: A B C D 
0 0.375506 0.406939 0.069938 11.187620 
1 0.069087 0.235615 0.154374 1.973796 
2 0.677945 0.433839 0.652324 1.704344 
3 0.264038 0.808055 0.347197 3.087857 
4 0.589161 0.252418 0.557789 1.508776 





日 前 














而 的 DataFrame 
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还 可 以 修改 已 有 的 列 : 


In[21]: df.eval('D = (A - B) / C', inplace=True) 
df .head() 


Out[21]: A B C D 
0 0.375506 0.406939 0.069938 -0.449425 
1 0.069087 0.235615 0.154374 -1.078728 
2 0.677945 0.433839 0.652324 0.374209 
3 0.264038 0.808055 0.347197 -1.566886 
4 0.589161 0.252418 0.557789 0.603708 


2. DataFrame.eval() 使 用 局 部 变量 
DataFrame.eval() 方法 还 支持 通过 @ 符号 使 用 Python 的 局 部 变量 ， 如 下 所 示 : 


In[22]: coLumn_mean = df.mean(1) 
result1 = df['A'] + coLumn_mean 
resuLt2 = df.eval('A + @column_mean') 
np.allclose(result1, result2) 








Out[22]: True 


@ 符号 表示 “这 是 一 个 变量 名 称 而 不 是 一 个 列 名 称 ”， 从 而 让 你 灵活 地 用 两 个 “命名 空 
间 ” 的 资源 ( 列 名 称 的 命名 空间 和 Python 对 象 的 命名 空间 ) 计算 代数 式 。 需 要 注意 的 
是 ，@ 符 号 只 能 在 DataFrame.eval() 方 法 中 使 用 ， 而 不 能 在 pandas.eval() 函数 中 使 用 ， 
因为 pandas.eval() 函数 只 能 获取 一 个 (Python) 命名 空间 的 内 容 。 


3.13.4 DataFrame.query() 方 法 
DataFrame 基于 字符 串 代 数 式 的 运算 实现 了 另 一 个 方法 ， 被 称 为 query()， 例 如 : 


In[23]: resuLt1 = df[(df.A < 0.5) & (df.B < 0.5)] 
resuLt2 = pd.eval('df[(df.A < 0.5) & (df.B < 0.5)]') 
np.allclose(result1, result2) 


Out[23]: True 
和 前 面 介绍 过 的 DataFrame.eval() 一 样 ， 这 是 一 个 用 DataFrame 列 创建 的 代数 式 ， 但 是 不 
能 用 DataFrame.eval() 语法 5。 不 过 ， 对 于 这 种 过 着 运算 ， 你 可 以 用 query() 方法 : 


In[24]: resuLt2 = df.query('A < 0.5 and B < 0.5') 
np.allclose(result1, result2) 








Out[24]: True 


除了 计算 性 能 更 优 之 外 ， 这 种 方法 的 语法 也 比 掩 码 代 数 式 语法 更 好 理解 。 需 要 注意 的 是 ， 
query() 方法 也 支持 用 @ 符 号 引用 局 部 变量 : 


In[25]: Cmean = df['C'].mean() 











result1 = df[(df.A < Cmean) & (df.B < Cmean)] 
result2 = df.query('A < @Cmean and B < @Cmean') 
注 5: 因为 你 要 的 结果 是 包含 DataFrane 的 全 部 列 。 一 一 译 者 注 
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np.allclose(result1, result2) 


Out[25]: True 


3.13.5 性 能 决定 使 用 时 机 
在 考虑 要 不 要 用 这 两 个 国 数 时 ， 需 要 思考 两 个 方面 : 计算 时 间 和 内 存 消耗 ， 而 内 存 消耗 是 
更 重要 的 影响 因素 。 就 像 前 面 介绍 的 那样 ， 每 个 涉及 NumPy 数组 或 Pandas 的 DataFrame 
的 复合 代数 式 都 会 产生 临时 数组 ， 例 如 : 

In[26]: x = df[(df.A < 0.5) & (df.B < 0.5)] 
它 基 本 等 价 于 : 


In[27]: tmp1 = df.A < 0.5 
tmp2 = df.B < 0.5 
tmp3 = tmp1 & tmp2 
x = df[tmp3] 


如 果 临 时 DataFrame 的 内 存 需求 比 你 的 系统 内 存 还 大 (通常 是 几 吉 字 节 )， 那 么 最 好 还 是 使 
用 eval() 和 query() 代数 式 。 你 可 以 通过 下 面 的 方法 大 概 估 算 一 下 变量 的 内 存 消耗 : 


In[28]: df.vaLues.nbytes 


























Out[28]: 32000 


在 性 能 方面 ， 即 使 你 没有 使 用 最 大 的 系统 内 存 ，eval() 的 计算 速度 也 比 普通 方法 快 。 现 在 的 
性 能 瓶颈 变 成 了 临时 DataFrame 与 系统 CPU 的 LI1 和 LIL2 缓存 〈 在 2016 年 依然 是 几 兆 字 节 ) 
之 间 的 对 比 了 一 一 如 果 系 统 缓存 足够 大 ， 那 么 eval() 就 可 以 避免 在 不 同 缓存 间 缓 慢 地 移动 
临时 文件 。 在 实际 工作 中 ， 我 发 现 普通 的 计算 方法 与 evaU query 计算 方法 在 计算 时 间 上 的 差 
异 并 非 总 是 那么 明显 ， 普 通 方法 在 处 理 较 小 的 数组 时 反而 速度 更 快 ! evaU query 方法 的 优点 
主要 是 节省 内 存 ， 有 时 语法 也 更 加 简洁。 

我 们 已 经 介绍 了 eval() 与 query() 的 绝 大 多 数 细 节 ， 若 想 了 解 更 多 的 信息 ， 请 参 基 Pandas 
文档 。 尤 其 需要 注意 的 是 ， 可 以 通过 设置 不 同 的 解析 器 和 引擎 来 执行 这 些 查 询 ， 相 关 细 市 
请 参考 Pandas 文档 中 “Enhancing Performance” (http://pandas.pydata.org/pandas-docs/dev/ 
enhancingperf.html) 节 。 


3.14 参考 资料 


在 这 一 章 中 ， 我 们 介绍 了 许多 关于 如 何 通过 Pandas 实现 高 效 数据 分 析 的 基础 知识 。 但 因 
篇 幅 有 限 ， 仍 有 许多 知识 无 法 介绍 到 。 如 果 你 想 学 习 更 多 的 Pandas 知识 ， 推 荐 参考 下 卫 
的 资源 。 

Pandas 在 线 文档 (http://pandas.pydata.org/) 

这 是 Pandas 程序 包 最 详细 的 文档 。 虽 然 文档 中 的 示例 都 是 在 处 理 小 数据 集 ， 但 是 它们 
内 容 完整 、 功 能 全 面 ， 对 于 理解 各 种 函数 非常 有 用 。 
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《利用 Python 进行 数据 分 析 》 
这 是 Wes McKinney (Pandas 创建 者 ) 的 著作 ， 里 面 介绍 了 许多 本 章 没 有 介绍 的 Pandas 
知识 ， 非 常 详细 。 值 得 一 提 的 是 ， 由 于 作者 曾经 是 一 名 金融 分 析 师 ， 因 此 他 深刻 论述 了 
用 Pandas 处 理 时 间 序 列 的 工具 。 这 本 书 中 还 有 许多 有 趣 的 示例 ， 通 过 Pandas 探索 真实 
数据 集 的 规律 。 但 需要 注意 的 是 ， 由 于 这 本 书 已 经 有 些 年 头 ， 而 Pandas 程序 包 作为 开 
源 项 目 ， 发 展 速度 很 快 ， 所 以 许多 新 特性 书 中 并 没有 介绍 〈 作 者 在 博客 透露 2017 年 会 
出 新 版 )。 

Stack Overflow 网 站 的 Pandas 话题 (http://stackoverflow.com/questions/tagged/pandas) 
Pandas 的 用 户 很 多 ， 只 有 你 有 问题 ， 就 可 以 到 Stack Overflow 上 看 看 别人 是 不 是 已 经 问 
过 同样 的 问题 。 使 用 Pandas 的 过 程 中 ，Google 等 搜索 引擎 也 必 不 可 少 。 在 你 最 喜欢 的 
搜索 引擎 中 融入 遇 到 的 问题 或 异常 ， 可 能 会 得 到 比 Stack Overflow 上 更 多 的 答案 。 

PyVideo 上 关于 Pandas 的 教学 视频 (http://pyvideo.org/tag/pandas/) 
从 PyCon 到 SciPy 再 到 PyData， 许 多 会 议 都 有 Pandas 开发 者 和 专家 分 享 的 教程 。 
PyCon 的 教程 特别 受 欢 迎 ， 好 评 最 多 。 

希望 通过 本 章 的 内 容 和 这 些 资源 ， 可 以 让 你 学 会 如 何 通过 Pandas 解决 工作 中 遇 到 的 所 有 数 

据 分 析 问 题 ! 
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Matplotlib 数 据 可 视 化 





本 章 将 详细 介绍 使 用 Python 的 Matplotlib 工具 实现 数据 可 视 化 的 方法 。Matplotlib 是 建立 
在 NumPy 数组 基础 上 的 多 平台 数据 可 视 化 程序 库 ， 最 初 被 设计 用 于 完善 SciPy 的 生态 环 
境 。John Hunter 在 2002 年 提出 了 Matplotlib 的 构思 希望 通过 一 个 Python 的 补丁 ， 让 
IPython 命令 行 可 以 用 gnuplot 画 出 类 似 MATLAB 风格 的 交互 式 图 形 。 但 那 时 IPython 的 
作者 Fernando Perez 正 忙 着 写 博士 论文 ， 就 对 John 说 自己 最 近 儿 个 月 都 没 时 间 审 核 补丁 。 
John 倒 觉 得 是 个 机 会 ， 就 把 补丁 做 成 了 Matplotlib 程序 包 ， 于 2003 年 发 布 了 0.1 版 。 后 
来 ， 美 国 太空 望远镜 科学 研究 所 (Space Telescope Science Institute，STScI， 哈 勃 望远镜 背 
后 的 团队 ， 位 于 约翰 替 普 金 斯 大 学 ) 选择 它 作 为 了 画图 程序 包 ， 并 一 直 为 Matplotlib 开发 
团队 提供 资金 支持 ， 从 而 大 大 扩展 了 Matplotlib 的 功能 。 


Matplotlib 最 重要 的 特性 之 一 就 是 具有 良好 的 操作 系统 兼容 性 和 图 形 显 示 底 层 接 口 兼 容 性 
(graphics backend) 。Matplotlib 支持 几 十 种 图 形 显示 接口 与 输出 格式 ， 这 使 得 用 户 无 论 在 
哪 种 操作 系统 上 都 可 以 输出 自己 想 要 的 图 形 格式 。 这 种 跨 平 台 、 面 面 俱 到 的 特点 已 经 成 为 
Matplotlib 最 强大 的 功能 之 一 ，Matplotlib 也 因此 吸引 了 大 量 用 户 ， 进 而 形成 了 一 个 活跃 的 
开发 者 团队 ， 晋 升 为 Python 科学 领域 不 可 或 缺 的 强大 武器 。 


然而 近 几 年 ，Matplotlib 的 界面 与 风格 似乎 有 点 跟 不 上 时 代 。 新 的 画图 工具 ， 如 R 语言 中 
的 ggplot 和 ggvis， 都 开始 使 用 D3js 和 HIML5 canvas 构建 的 网 页 可 视 化 工具 。 相 比 之 
下 ，Matplotlib 更 显 沧 桑 。 但 我 觉得 我 们 仍然 不 能 放弃 Matplotlib 这 样 一 个 功能 完善 、 跨 平 
台 的 画图 引擎 。 目 前 ， 新 版 的 Matplotlib 已 经 可 以 轻松 实现 主流 的 绘图 风格 (详情 请 参见 
4.13 节 )， 人 们 不 断 在 Matplotlib 的 基础 上 开发 出 新 的 程序 包 ， 实 现 更 加 人 简洁、 现代 化 的 
API， 例 如 Seaborn (详情 请 参见 4.16 节 )、ggplot (http://yhat.github.io/ggplot)、HoloViews 
(http://holoviews.org) 、Altair (http://altair-viz.github.io)， 以 及 Pandas 对 Matplotlib 的 API 
封装 的 画图 功能 。 虽 然 已 经 有 了 封装 后 的 高 级 工具 ， 但 是 掌握 Matplotlib 的 语法 更 能 让 你 
灵活 地 控制 最 终 的 图 形 结果 。 因 此 ， 即 使 新 工具 的 出 现 说 明 社区 正在 逐渐 放弃 直接 使 用 底 
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层 的 Matplotlib API 画图 的 做 法 ， 但 我 依然 觉得 Matplotlib 是 数据 可 视 化 技术 中 不 可 或 缺 的 
一 环 。 


4.1 Matplotlib 常 用 技巧 


在 深入 学 习 Matplotlib 数据 可 视 化 的 功能 之 前 ， 你 需要 知道 几 个 Matplotlib 的 使 用 技巧 。 





4.1.1 导入 Matplotlib 
就 像 之 前 用 np 作为 NumPy 的 简写 形式 、pd 作为 Pandas 的 简写 形式 一 样 ， 我 们 也 可 以 在 
导入 Matplotlib 时 用 一 些 它 常用 的 简写 形式 : 


In[1]: import matplotlib as mpl 
import matplotlib.pyplot as plt 


plt 是 最 常用 的 接口 ， 在 本 章 后 面 的 内 容 中 会 经 常用 到 。 


4.1.2 设置 绘图 样式 
我 们 将 使 用 plt.style 来 选择 图 形 的 绘图 风格 。 现 在 选择 经 典 (classic) 风格 ， 这 样 画 日 
的 图 就 都 是 经 典 的 Matplotlib 风格 了 : 


In[2]: plt.style.use('classic') 


在 后 面 的 内 容 中 ， 我 们 将 根据 需要 调整 绘图 风格 。Matplotlib 在 1.5 版 之 后 开始 支持 不 同 的 
风格 列表 (stylesheets)。 如 果 你 用 的 Matplotlib 版 本 较 旧 ， 那 么 就 只 能 使 用 默认 的 绘图 风 
格 。 关 于 风格 列表 的 更 多 信息 ， 请 参见 4.13 市 。 


4.1.3 ”用 不 用 show()? 如 何 显示 图 形 

如 果 数 据 可 视 化 图 不 能 被 看 见 ， 那 就 一 点 儿 用 也 没有 了 。 但 如 何 显示 你 的 图 形 ， 就 取决 于 
具体 的 开发 环境 了 。Matplotlib 的 最 佳 实践 与 你 使 用 的 开发 环境 有 关 。 简 单 来 说 ， 就 是 有 
三 种 开发 环境 ,分 别 是 脚本 、IPython shell 和 IPython Notebook。 

1. 在 脚本 中 画图 
如 果 你 在 一 个 脚本 文件 中 使 用 Matplotib， 那 么 显示 图 形 的 时 全 必须 使 用 ptt.show()。ptt. 
show() 会 启动 一 个 事件 循环 (event loop) ， 并 找到 所 有 当前 可 用 的 图 形 对 象 ， 然 后 打开 一 
个 或 多 个 交互 式 窗口 显示 图 形 。 

例如 ， 你 现在 有 一 个 名 为 myplot.py 的 文件 ， 代 码 如 下 所 示 : 


# ------- file: myplot.py ------ 
import matplotlib.pyplot as plt 
import numpy as np 














上 上 































































































x = np.Linspace(0，10，100) 


plt.plot(x, np.sin(x)) 





plt.plot(x, np.cos(x)) 
plt.show() 


你 可 以 从 命令 行 工 具 中 执行 这 个 脚本 ， 然 后 会 看 到 一 个 新 窗口 ， 里 面 会 显示 你 的 图 形 : 
$ python myplot.py 


plt.show() 这 行 代码 在 后 面 完成 了 许多 事情 ， 它 需要 与 你 使 用 的 操作 系统 的 图 形 显示 接 
口 进行 交互 。 虽然 具体 的 操作 组 币 会 操作 条 4 绕 和 安装 过 程 不 同 而 有 很 大 的 差异 ， 但 是 
Matplotlib 为 你 隐藏 了 所 有 的 细节 ， 非 常 省 心 。 


不 过 有 一 点 需要 注意 ， 一 个 Python 会 话 (session) 中 只 能 使 用 一 次 pLt.show()， 因 此 通常 
都 把 它 放 在 脚本 的 最 后 。 多 个 plt.show() 命令 会 导致 难以 预料 的 显示 异常 ， 应 该 尽量 避免 。 


2. 在 IPython shell 中 画图 

在 IPython shell 中 交互 式 地 使 用 Matplotlib 画图 非常 方便 (详情 请 参见 第 1 章 )， 在 
IPython 启动 Matplotlib 模式 就 可 以 使 用 它 。 为 了 局 用 这 个 模式 ， 你 需要 在 启动 ipython 后 
使 用 %matplotlib 魔法 命令 : 


In [1]: %matplotlib 
Using matplotlib backend: TkAgg 

































































In [2]: import matplotlib.pyplot as plt 
此 后 的 任何 ptt 命令 都 会 自动 打开 一 个 图 形 窗口 ， 增 加 新 的 命令 ， 图 形 就 会 更 新 。 有 一 
些 变 化 (例如 改变 已 经 画 好 的 线条 属性 ) 不 会 自动 及 时 更 新 ; 对 于 这 些 变 化 ， 可 以 使 用 
plt.draw() 强制 更 新 。 在 IPython shell 中 启动 Matplotlib 模式 之 后 ， 就 不 需要 使 用 plt. 
show() 了 。 
3. 在 IPython Notebook 中 画图 
IPython Notebook 是 一 款 基于 浏览 器 的 交互 式 数据 分 析 工 具 ， 可 以 将 描述 性 文字 、 代 码 、 
图 形 、HTML 元 素 以 及 更 多 的 媒体 形式 组 合 起 来 ， 集 成 到 单个 可 执行 的 Notebook 文档 中 
(详情 请 参见 第 1 章 ) 。 


| Notebook 进行 交互 式 画 图 与 使 用 IPython shell 类 似 ， 也 需要 使 用 %matplotlib 命 
。 你 可 以 将 图 形 直接 肯 在 IPython Notebook 页 面 中 ， 有 两 种 展现 形式 。 


。 %matplotlib notebook 会 在 Notebook 中 启动 交互 式 图 形 。 
。 %matplotlib inline 会 在 Notebook 中 启动 静态 图 形 。 
本 书 统一 使 用 %matplotbib inline: 
In[3]: %matplotlib inline 
运行 命令 之 后 (每 一 个 Notebook 核心 任务 /会 话 只 需要 运行 一 次 )， 在 每 一 个 Notebook 的 
单元 中 创建 图 形 就 会 直接 将 PNG 格式 图 形 文件 获 入 在 单元 中 〈 如 图 4-1 所 示 ) : 


In[4]: import numpy as np 
x = np.Linspace(0，10，100) 
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fig = plt.figure() 
plt.plot(x, np.sin(x), '-') 
plt.plot(x, np.cos(x), '--'); 














4-1: 基本 图 形 示例 


4.1.4 ”将 图 形 保存 为 文件 


Matplotlib 的 一 个 优点 是 能 够 将 图 形 保存 为 各 种 不 同 的 数据 格式 。 你 可 以 用 savefig() 命令 
将 图 形 保存 为 文件 。 例 如 ， 如 有 果 要 将 图 形 保存 为 PNG 格式 ， 你 可 以 运行 这 行 代码 : 


In[5]: fig.savefig('my_figure.png') 


这 样 工 作文 件 夹 里 就 有 了 一 个 my_figure.png 文件 : 


In[6]: !Ls -lh my_figure.png 























-rw-r--r-- 1 jakevdp staff 16K Aug 11 10:59 my_figure.png 
为 了 确定 文件 中 是 否 保存 有 我 们 需要 的 内 容 ， 可 以 用 IPython 的 Image 对 象 来 显示 文件 内 
容 (如 图 4-2 所 示 ) : 


In[7]: from IPython.display import Image 
Image('my_figure.png ') 











10 























在 savefig() 里 面 ， 保 存 的 图 片 文 件 格式 就 是 文件 的 扩展 名 。Matplouib 支持 许多 图 形 格 
式 ， 具 体格 式 由 操作 系统 已 安装 的 图 形 显示 接口 决定 。 你 可 以 通过 canvas 对 象 的 方法 查看 
系统 支持 的 文件 格式 .: 


In[8]: fig.canvas.get_supported filetypes() 


























Out[8]: {'eps': 'Encapsulated Postscript', 
'jpeg': 'Joint Photographic Experts Group', 
: 'Joint Photographic Experts Group', 
'pdf': 'Portable Document Format ' ， 
'pgf': 'PGF code for LaTeX', 
"| : 'Portable Network Graphics', 
1 Postscript ' ， 
"raw': "Raw RGBA bitmap ' ， 
"rgba ' : "Raw RGBA bitmap ' ， 
'Scalable Vector Graphics ' ， 
: 'Scalable Vector Graphics ' ， 
'tif': "Tagged Image File Format ' ， 
'tiff': "Tagged Image File Format'} 


需要 注意 的 是 ， 当 你 保存 图 形 文件 时 ， 不 需要 使 用 plt.show() 或 者 前 面 介绍 过 的 命令 。 


4.2 两 种 画图 接口 


不 过 Matplotlib 有 一 个 容易 让 人 混淆 的 特性 ， 就 是 它 的 两 种 画图 接口 : 一 个 是 便捷 的 
MATLAB 风格 接口 ， 另 一 个 是 功能 更 强大 的 面向 对 象 接口 。 下 面 来 快速 对 比 一 下 两 种 接 
口 的 主要 差异 。 




















4.2.1 MATLAB 风 格 接口 


Matplotlib 最 初 作 为 MATLAB 用 户 的 Python 替代 品 ， 许 多 语法 都 和 MATLAB 类 似 。 
MATLAB 风格 的 工具 位 于 pyplot (ptt) 接口 中 。MATLAB 用 户 肯 定 对 下 面 的 代码 特别 熟 
悉 (如 图 4-3 所 示 ) : 


In[9]: plt.figure() # 创建 图 形 




















# 创建 两 个 子 图 中 的 第 一 个 ， 设 置 坐标 轴 
pLt.subpLot(2，1，1) # ( 行 、 列 、 子 图 编号 ) 
plt.plot(x, np.sin(x)) 





























# 创建 两 个 子 图 中 的 第 二 个 ， 设 置 坐标 轴 
plt.subplot(2, 1, 2) 
plt.plot(x, np.cos(x)); 
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4-3: MATLAB 风格 接口 绘制 的 子 图 


这 种 接口 最 重要 的 特性 是 有 状态 的 (stateful) : 它 会 持续 跟踪 “当前 的 ”图 形 和 坐标 轴 ， 
所 有 plt 命令 都 可 以 应 用 。 你 可 以 用 plt.gcf() (获取 当前 图 形 ) 和 plt.gca() (获取 当前 
坐标 轴 ) 来 查看 具体 信息 。 


虽然 这 个 有 状态 的 接口 画 起 图 来 又 快 又 方便 ， 但 是 也 很 容易 出 问题 。 例 如 ， 当 创建 上 面 的 
第 二 个 子 图 时 ， 怎 么 才能 回 到 第 一 个 子 图 ， 并 增加 新 内 容 呢 ? 虽然 用 MATLAB 风格 接口 
也 能 实现 ， 但 未 免 过 于 复杂 ， 好 在 还 有 一 种 更 好 的 办 法 ! 


4.2.2 面向 对 象 接口 


看 问 对 象 接 口 可 以 适应 更 复杂 的 场景 ， 更 好 地 控制 你 自己 的 图 形 。 在 面向 对 象 接 口中 ， 画 
图 函数 不 再 受到 当前 “活动 ”图 形 或 坐标 轴 的 限制 ， 而 变 成 了 显 式 的 Figure 和 Axes 的 方 
法 。 通 过 下 面 的 代码 ， 可 以 用 面向 对 象 接口 重新 创建 之 前 的 图 形 (如 图 4-4 所 示 ) : 
In[10]: # 先 创建 图 形 网 格 


# ax 是 一 个 包含 两 个 Axes 对 象 的 数组 
fig, ax = plt.subplots(2) 


























































































































# 在 每 个 对 象 上 调用 plot() 方 法 
ax[0].plot(x, np.sin(x)) 
ax[1].plot(x, np.cos(x)); 


























4-4: 用 面向 对 象 接口 创建 子 图 
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虽然 在 画 简 单 图 形 时 ， 选 择 哪 种 绘图 风格 主要 看 个 人 喜好 ， 但 是 在 画 比较 复杂 的 图 形 时 ， 
面向 对 象 方法 会 更 方便 。 在 本 章 中 ， 我 们 将 在 MATLAB 风格 接口 与 面向 对 象 接口 间 来 回 
转换 ， 具 体内 容 根 据 实际 情况 而 定 。 在 绝 大 多 数 场景 中 ，plt.plot() 与 ax.plot() 的 差异 
非常 小 ， 但 是 后 文 会 重点 指出 其 中 的 一 些 陷阱 。 


4.3 简易 线形 图 


在 所 有 图 形 中 ， 最 简单 的 应 该 就 是 线性 方程 y》 = (x) 的 可 视 化 了 。 来 看 看 如 何 创建 这 个 简 
单 的 线形 图 。 接 下 来 的 内 容 都 是 在 Notebook 中 画图 ， 因 此 需要 导入 以 下 命令 : 
In[1]: %matplotlib inline 

import matplotlib.pyplot as plt 


plt.style.use('seaborn-whitegrid') 
import numpy as np 







































































要 画 Matplotib 图 形 时 ， 都 需要 先 创建 一 个 图 形 fig 和 一 个 坐标 轴 ax。 创 建 图 形 与 坐标 轴 
的 最 简单 做 法 如 下 所 示 (如 图 4-5 所 示 ) ; 


In[2]: fig = plt.figure() 
ax = plt.axes() 



































4-5: 一 个 空 的 网 格 坐标 轴 








在 Matplotlib 里 面 ，figure (plt.Figure 类 的 一 个 实例 ) 可 以 被 看 成 是 一 个 能 够 容纳 各 种 坐 
标 轴 、 图 形 、 文 字 和 标签 的 容器 。 就 像 你 在 图 中 看 到 的 那样 ，axes (plt.Axes 类 的 一 个 实 
例 ) 是 一 个 带 有 刻度 和 标签 的 和 矩形， 最 终 会 包含 所 有 可 视 化 的 图 形 元 素 。 在 本 书 中 ， 我 们 
通常 会 用 变量 fig 表示 一 个 图 形 实例 ， 用 变量 ax 表示 一 个 坐标 轴 实 例 或 一 组 坐标 轴 实 例 。 
创建 好 坐标 轴 之 后 ， 就 可 以 用 ax.plot 画图 了 。 从 一 组 简单 的 正弦 曲线 (sinusoid) 开始 
(如 图 4-6 所 示 ) : 


In[3]: fig = plt.figure() 
ax = plt.axes() 




































































x = np.linspace(0, 10, 1000) 
ax.plot(x, np.sin(x)); 
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4-6: 简单 的 正弦 曲线 图 


另外 也 可 以 用 pylab 接口 画 


细 讨 论 了 这 两 种 接口 ) : 


In[4]: plt.plot(x, 


图 4-7 所 示 ，4.2 节 详 





标 轴 都 在 底层 执行 〈 如 





图 ， 这 时 图 形 与 4 








np.sin(x)); 








10 


-1.0 


A 





4-7: 用 面向 对 象 接 口 画 正 该 曲线 














如 果 想 在 一 张 图 中 创建 多 条 线 ， 可 以 重复 调用 plot 命令 (如 图 4-8 所 示 ) : 
In[5]: plt.plot(x, np.sin(x)) 


plt.plot(x, 


np.cos(x)); 











4-8: 创建 多 条 线 
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4.3.1 


通常 对 图 


在 Matplotlib 中 画 简 单 的 函数 就 是 如 此 简单 ! 下 面 将 介绍 更 多 关于 如 何 控制 坐标 轴 和 线条 
外 观 的 具体 配置 方法 。 


调整 图 形 : 线条 的 颜色 与 风格 





形 的 第 一 次 调整 是 调整 它 线条 的 颜色 与 风格 。ptLt.pLot() 函数 可 以 通过 相应 的 参 
数 设 置 颜色 与 风格 。 要 修改 颜色 ， 就 可 以 使 用 color 参数 ， 它 支持 各 种 颜色 值 的 字符 串 。 





颜色 的 不 同 表示 方法 如 下 所 示 (如 图 4-9 所 示 ) : 


In[6]: 


plt 
plt 
plt 
plt 
plt 
plt 


.plot(x, np.sin(x - 0), color='blue') 
.plot(x, np.sin(x - 1), color='g') 
.plot(x, np.sin(x - 2), color='0.75') 
.plot(x, np.sin(x - 3), color='#FFDD44') 


标准 颜色 名 称 
缩写 颜 色 代 码 (rgbcmyk) 





十 六 进 制 (RRGGBB，00~FF) 





.plot(x, np.sin(x - 4)，color=(1.0,0.2,0.3)) # RGB 元 组 ， 范 围 在 0~1 
.plot(x, np.sin(x - 5)，color='chartreuse'); # HTML 颜 色 名 称 




















00 











4-9: 控制 图 形 元 素 的 颜色 


如 果 不 指定 颜色 ，Matplotlib 就 会 为 多 条 线 自动 循环 使 用 一 组 默认 的 颜色 。 
与 之 类 似 ， 你 也 可 以 用 Linestyle 调整 线条 的 风格 (如 图 4-10 所 示 ) : 


In[7]: plt.plot(x, x + 0, linestyle='solid') 

plt.plot(x, x + 1, linestyle='dashed') 
plt.plot(x, x + 2, linestyle='dashdot') 
plt.plot(x, x + 3, linestyle='dotted'); 


























# 你 可 以 用 
plt.plot(x, x + 4, linestyle='-') # 实 
plt.plot(x, x + 5, linestyle='--')# 虚 
plt.plot(x, x + 6, linestyle='-.')# 





下 面 的 简写 形式 


plt.plot(x, x + 7，linestyle=':'); # 实 点 线 
如 果 你 想 用 一 种 更 简洁 的 方式 ， 则 可 以 将 Linestyle 和 color 编码 组 合 起 来 ， 作 为 plt. 
plot() 函数 的 一 个 非 关 键 字 参 数 使 用 (如 图 4-11 所 示 ) : 


In[8]: plt.plot(x, x + 0，'-g') # 绿色 实 线 
plt.plot(x, x + 1，'--c') # 青色 虚线 
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pLt.pLot(x，x + 2，'-.k') # 黑色 点 划 线 
pLt.pLot(x，x + 3，':r'); # 红色 实 点 线 

















4-10: 不 同 风格 的 线条 














4-11: 用 快捷 方式 设置 颜色 和 风格 
这 些 单字 符 颜色 代码 是 RGB (Red/Green/Blue) 与 CMYK (Cyan/Magenta/Yellow/blacK) 
颜色 系统 中 的 标准 缩写 形式 ， 通 常用 于 数字 化 彩色 图 形 。 


还 有 很 多 其 他 用 来 调整 图 像 的 关键 字 参 数 。 若 想 了 解 更 多 的 细节 ， 建 议 你 用 Python 的 帮 
助 工 具 查看 plt.plot() 函数 的 程序 文档 (详情 请 参见 1.2 节 )。 


4.3.2 ”调整 图 形 : 坐标 轴 上 下 限 

虽然 Matplotlib 会 自动 为 你 的 图 形 选 择 最 合适 的 坐标 轴 上 下 限 ， 但 是 有 时 自 定义 坐标 轴 上 
下 限 可 能 会 更 好 。 调 整 坐标 轴 上 下 限 最 基础 的 方法 是 pLt.xLim() 和 plt.ylim() (如 图 4-12 
所 示 ) : 


In[9]: plt.plot(x, np.sin(x)) 


























plt.xlim(-1, 11) 
plt.ylim(-1.5, 1.5); 

















4-12: 坐标 轴 上 下 限 


如 有 果 你 想 要 让 坐标 轴 逆 序 显示 ， 那 么 也 可 以 逆序 设置 坐标 轴 刻 度 值 





In[10]: plt.plot(x, np.sin(x)) 


plt.xlim(10, 0) 
plt.ylim(1.2, -1.2); 

















4-13 所 示 ) : 




















4-13: 坐标 轴 刻 度 值 逆序 


还 有 一 个 方法 是 plt.axis() (注意 不 要 搞 混 


ymin，ymax] 对 应 的 值 ，pLt.axis() 方法 可 以 让 你 用 一 行 代码 设置 x 和 y 的 限 值 (如 图 


4-14 所 示 ) : 


In[11]: plt.plot(x, np.sin(x)) 
plt.axis([-1, 11, -1.5, 1.5]); 


plt.axis() 能 做 的 可 不 止 如 此 ， 它 还 可 以 按照 图 





(如 图 4-15 所 示 ) : 


In[12]: plt.plot(x, np.sin(x)) 
plt.axis('tight'); 





axes 和 axis)。 通 过 传 入 [xmin， xmax， 





形 的 内 容 自动 收 紧 坐 标 轴 ， 不 留 空白 区 域 
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4-14: 用 plt.axis 设置 坐标 轴 上 下 限 


10 
ff 
00 
-05 
-10 
0 2 4 6 a 加 


图 4-15:“ 收 紧 ” 布 局 示例 
你 还 可 以 实现 更 高 级 的 配置 ， 例 如 让 屏幕 上 显示 的 图 形 分 辩 率 为 1:1，x 轴 单 位 长 度 与 y 轴 
单位 长 度 相 等 (图 4-16 所 示 ) : 


In[13]: plt.plot(x, np.sin(x)) 
plt.axis('equal'); 
































图 4-16:“ 相 等 ”布局 示例 ， 分 辩 率 为 1:1 
关于 plLt.axis() 方法 设置 坐标 轴 上 下 限 和 其 他 更 多 功能 ， 请 参考 plt.axis() 的 程序 文档 。 


























4.3.3 ”设置 图 形 标 签 
本 节 的 最 后 一 部 分 将 简要 介绍 设置 图 形 标签 的 方法 图 形 标题 、 坐 标 轴 标题 、 简 易 图 例 。 
图 形 标题 与 坐标 轴 标 题 是 最 简单 的 标签 ， 快 速 设置 方法 如 下 所 示 (如 图 4-17 所 示 ) : 
In[14]: plt.plot(x, np.sin(x)) 
plt.title("A Sine Curve") 


plt.xlabel("x") 
plt.ylabel("sin(x)"); 























A Sine Curve 


0 2 4 6 8 10 











图 4-17: 图 形 标题 与 坐标 轴 标 题 
你 可 以 通过 优化 参数 来 调整 这 些 标签 的 位 置 、 大 小 和 风格 。 若 想 获取 更 多 的 信息 ， 请 参考 


Matplotlib 文档 和 对 应 函数 的 程序 文档 。 
在 单个 坐标 轴 上 显示 多 条 线 时 ， 创 建 图 例 显示 每 条 线 是 很 有 效 的 方法 。Matplotlib 内 置 了 
一 个 简单 快速 的 方法 ， 可 以 用 来 创建 图 例 ， 那 就 是 〈 估 计 你 也 猜 到 了 ) pLt.Legend()。 虽 
然 有 不 少 用 来 设置 图 例 的 办 法 ， 但 我 觉得 还 是 在 plt.plot 函数 中 用 Labet 参数 为 每 条 线 设 
置 一 个 标签 最 简单 (如 图 4-18 所 示 ) : 
In[15]: plt.plot(x, np.sin(x), '-g', label='sin(x)') 
plt.plot(x, np.cos(x), ':b', label='cos(x)') 
plt.axis('equal') 
























































plt. legend(); 




















4-18: 图 例 
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你 会 发 现 ，plt.legend() 函数 会 将 每 条 线 的 标签 与 其 风格 、 颜 色 自 动 匹配 。 关 于 通过 plt. 
Legend() 设置 图 例 的 更 多 信息 ， 请 参考 相应 的 程序 文档 。 男 外 ， 我 们 将 在 4.8 节 介 绍 更 多 
高 级 的 图 例 设置 方法 。 























Matplotlib 陷阱 


虽然 绝 大 多 数 的 plt 函数 都 可 以 直接 转换 成 ax 方法 (例如 plt.plot() 一 ax.plot()、 
plt.legend() 一 ax.legend() 等 ),， 但 是 并 非 所 有 的 命令 都 可 以 这 样 用 。 尤 其 是 用 来 设 
置 坐标 轴 上 下 限 、 坐 标 轴 标 题 和 图 形 标 题 的 济 数 ， 它 们 大 部 稍 有 差别 。 一 些 MATLAB 
风格 的 方法 和 面向 对 象 方法 的 转换 如 下 所 示 : 
plt.xlabel() 一 ax.set xlabel() 
plt.ylabel() 一 ax.set_ylabel() 
plt.xlim() 一 ax.set _xlim() 
plt.ylim() 一 ax.set_ylim() 
plt.title() 一 ax.set title() 
在 用 面向 对 象 接口 画图 时 ， 不 需要 单独 调用 这 些 函 数 ， 通 常 采 用 ax.set() 方法 一 次 性 
设置 所 有 的 属性 是 更 简便 的 方法 (如 图 4-19 所 示 ) : 
In[16]: ax = plt.axes() 
ax.plot(x, np.sin(x)) 
ax.set(xlim=(0, 10), ylim=(-2, 2), 


xlabel='x', ylabel='sin(x)', 
title='A Simple Plot'); 





A Simple Plot 


sn(x) 











4-19: 用 ax.set() 方 法 一 次 性 设置 所 有 的 属性 


4.4 简易 散 点 图 


另 一 种 常用 的 图 形 是 简易 散 点 图 (scatter plot) ， 与 线形 图 类 似 。 这 种 图 形 不 再 由 线段 连接 ， 
而 是 由 独立 的 点 、 圆 围 或 其 他 形状 构成 。 开 始 的 时 候 同样 需要 在 Notebook 中 导入 函数 : 


In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 
plt.style.use('seaborn-whitegrid') 
import numpy as np 















































4.4.1 用 plt.plot 画 散 点 图 


上 一 节 介 绍 了 用 plt.plot/ax.plot 画 线形 图 的 方法 ， 现 在 用 这 些 函 数 来 画 散 点 图 (如 图 
4-20 所 示 ) : 


In[2]: x 
bh 























np.linspace(0, 10, 30) 
np.sin(x) 


plt.plot(x, y, 'o', color='black'); 
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4-20: 散 点 图 





函数 的 第 三 个 参数 是 一 个 字符 ， 表 示 图 形 符号 的 类 型 。 与 你 之 前 用 '-' 和 '--' 设置 线条 属 
性 类 似 ， 对 应 的 图 形 标记 也 有 缩写 形式 。 所 有 的 缩写 形式 都 可 以 在 plt.plot 文档 中 查 到 ， 
也 可 以 参考 Matplotlib 的 在 线 文档 。 绝 大 部 分 图 形 标记 都 非常 直观 ， 我 们 在 这 里 演示 一 部 
分 (如 图 4-21 所 示 ) : 


In[3]: rng = np.random.RandomState(0) 
for marker tn [os Mev My XE NR Ne Ss dl]: 
plt.plot(rng.rand(5), rng.rand(5), marker, 
label="marker='{0}'".format(marker)) 
plt. legend(numpoints=1) 
plt.xlim(0, 1.8); 
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4-21: 不 同 的 图 形 标记 
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这 些 代码 还 可 以 与 线条 、 颜 色 代 码 组 合 起 来 ， 画 出 一 条 连接 散 点 的 线 (如 图 4-22 所 示 ) : 
In[4]: plt.plot(x, y,，'-ok'); # 直线 (-) 、 圆 圈 (o) 、 黑 色 (k) 
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4-22: 组 合 线条 与 散 点 





另外 ，pLt.ptLot 支持 许多 设置 线条 和 散 点 属性 的 参数 (如 图 4-23 所 示 ) : 


In[5]: plt.plot(x, y, '-p', color='gray', 
markersize=15, linewidth=4, 
markerfacecolor='white', 
markeredgecolor='gray', 
markeredgewidth=2) 

plt.ylim(-1.2, 1.2); 
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4-23: 自 定 义 线条 和 散 点 属性 
plt.plot 国 数 非常 灵 话 ， 可 以 满足 各 种 不 同 的 可 视 化 配置 需求 。 关 于 具体 配 置 的 完整 描 
述 ， 请 参考 plt.plot 文档 。 


4.4.2 ”用 plLt.scatter 画 散 点 图 


另 一 个 可 以 创建 散 点 图 的 函数 是 plt.scatter。 它 的 功能 非常 强大 ， 其 用 法 与 plt.plot 函 
数 类 似 (如 图 4-24 所 示 ) : 


In[6]: plt.scatter(x, y, marker='o'); 






































图 4-24: 简易 散 点 图 


plt.scatter 与 plt.plot 的 主要 差别 在 于 ， 前 者 在 创建 散 点 图 时 具有 更 高 的 灵活 性 ， 可 以 
单独 控制 每 个 散 点 与 数据 匹配 ， 也 可 以 让 每 个 散 点 具有 不 同 的 属性 大小、 表面 颜色 、 边 
框 颜色 等 ) 。 
下 面 来 创建 一 个 随机 散 点 图 ， 里面 有 各 种 颜色 和 大 小 的 散 点 。 为 了 能 更 好 地 显示 重 共 部 
分 ， 用 alpha 参数 来 调整 透明 度 (如 图 4-25 所 示 ) : 
In[7]: rng = np.random.RandomState(0) 
x = rng.randn(100) 
y = rng.randn(100) 


colors = rng.rand(100) 
sizes = 1000 * rng.rand(100) 









































plt.scatter(x, y, c=colors, s=sizes, alpha=0.3, 
cmap='viridis') 
plt.colorbar(); # 显示 颜色 条 




















图 4-25: 改变 散 点 图 中 散 点 的 大 小 、 颜 色 和 透明 度 


请 注意 ， 颜 色 自 动 映 射 成 颜色 条 (color scale， 通 过 colorbar() 显示 ) ， 散 点 的 大 小 以 像素 
为 单位 。 这 样 ， 散 点 的 颜色 与 大 小 就 可 以 在 可 视 化 图 中 显示 多 维 数据 的 信息 了 。 
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例如 ， 可 以 用 Scikit-Learn 程序 库 里 面 的 葛 尾 花 (iris) 数据 来 演示 。 它 里 面 有 三 种 这 尾 花 ， 
每 个 样本 是 一 种 伦 ， 其 花 六 (petal) 与 花王 (sepal) 的 长 度 与 宽度 都 经 过 了 仔细 测量 (如 
4-26 所 示 ) : 

In[8]: from sklearn.datasets import load iris 


iris = load_iris() 
features = iris.data.T 

















plt.scatter(features[0], features[1], alpha=0.2, 
plt.xlabel(iris.feature_names[0]) 
plt.ylabel(iris.feature_names[1]); 
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4-26: 用 散 点 属性 对 芍 尾 花 的 特征 进行 编码 


散 点 图 可 以 让 我 们 同时 看 到 不 同 维度 的 数据 : 每 个 点 的 坐标 值 (x, y) 分 别 表示 花王 的 长 度 
和 宽度 ， 而 点 的 大 小 表示 花 辩 的 宽度 ， 三 种 颜色 对 应 三 种 不 同类 型 的 刘 尾 花 。 这 类 多 颜色 
与 多 特征 的 散 点 图 在 探索 与 演示 数据 时 非常 有 用 。 


4.4.3 plot 与 scatter: 效率 对 比 


plt.plot 与 plt.scatter 除了 特征 上 的 差异 之 外 ， 还 有 什么 影响 我 们 选择 的 因素 呢 ? 在 数 
据 量 较 小 的 时 候 ， 两 者 在 效率 上 的 差异 不 大 。 但 是 当 数 据 变 大 到 几 千 个 散 点 时 ，plt.plot 
的 效率 将 大 大 高 于 plt.scatter。 这 是 由 于 plt.scatter 会 对 每 个 散 点 进行 单独 的 大 小 与 颜 
色 的 泻 染 ， 因 此 泻 染 器 会 消耗 更 多 的 资源 。 而 在 plt.plot 中 ， 散 点 基本 都 彼此 复制 ， 因 此 
整个 数据 集中 所 有 点 的 颜色 、 尺 寸 只 需要 配置 一 次 。 由 于 这 两 种 方法 在 处 理 大 型 数据 集 时 
有 很 大 的 性 能 差异 ， 因 此 面 对 大 型 数据 集 时 ，plt.plot 方法 比 plt.scatter 方法 好 。 


4.5 可视化 异常 处 理 


对 任何 一 种 科学 测量 方法 来 说 ， 准 确 地 衡量 数据 误差 都 是 无 比重 要 的 事情 ， 甚 至 比 数据 
本 身 还 要 重要 。 举 个 例子 ， 假 如 我 要 用 一 种 天 文学 观测 手段 评估 哈 勃 常数 (the Hubble 
Constant) 一 一 银河 外 星系 相对 地 球 退 行 速度 与 距离 的 比值 。 我 知道 目前 的 公认 值 大 约 
是 71(km/s) / Mpc， 而 我 用 自己 的 方法 测 得 的 值 是 74(km/s) / Mpc。 那 么 ， 我 的 测量 值 可 信 
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吗 ? 如 果 仅 知道 一 个 数据 ， 是 不 可 能 知道 是 否 可 信和 的。 

假如 我 现在 知道 了 数据 可 能 存在 的 不 确定 性 : 当前 的 公认 值 大 概 是 71 士 2.5(km/s) / Mpc， 
而 我 的 测量 值 是 74 士 dkm/s) / Mpc。 那 么 现在 我 的 数据 与 公认 值 一 致 吗 ? 这 个 问题 可 以 从 
定量 的 角度 进行 回答 。 
在 数据 可 视 化 的 结果 中 用 图 形 将 误差 有 效 地 显示 出 来 ， 就 可 以 提供 更 充分 的 信息 。 


4.5.1 基本 误差 线 
基本 误差 线 (errorbar) 可 以 通过 一 个 Matplotlib 函数 来 创建 (如 图 4-27 所 示 ) : 


In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 
plt.style.use('seaborn-whitegrid') 
import numpy as np 























In[2]: x = np.linspace(0, 10, 50) 
dy = 0.8 
y = np.sin(x) + dy * np.random.randn(50) 


plt.errorbar(x, y, yerr=dy, fmt=".k'); 














图 4-27: 误差 线 

其 中 ，fmt 是 一 种 控制 线条 和 点 的 外 观 的 代码 格式 ， 语 法 与 plt.plot 的 缩写 代码 相同 ， 详 
情 请 参见 4.4 节 。 

除了 基本 选项 之 外 ，errorbar 还 有 许多 改善 结果 的 选项 。 通 过 这 些 额 外 的 选项 ， 你 可 以 轻 
松 自 定义 误差 线 图 形 的 绘画 风格 。 我 的 经 验 是 ， 让 误差 线 的 颜色 比 数据 点 的 颜色 浅 一 点 效 
果 会 非常 好 ， 尤 其 是 在 那些 比较 密集 的 图 形 中 (如 图 4-28 所 示 ) : 


In[3]: plt.errorbar(x, y, yerr=dy, fmt="'0o', color='black', 
ecolor='lightgray', elinewidth=3, capsize=0); 
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文档 。 


4.5.2 


图 4-28: 自 定义 误差 线 


除了 这 些 选项 之 外 ， 你 还 可 以 设置 水 平方 向 的 误差 线 (xerr)、 单 侧 误 差 线 (one-sided 
errorbar)， 以 及 其 他 形式 的 误差 线 。 关 于 误差 线 的 更 多 选项 ， 


连续 误差 





请 参考 plt.errorbar 的 程序 


有 时 候 可 能 需要 显示 连续 变量 的 误差 。 虽 然 Matplotlib 没有 内 置 的 简便 方法 可 以 解决 这 个 
是 通过 plt.plot 与 plt.fill_between 来 解决 也 不 是 很 难 。 

我 们 将 用 Scikit-Learn 程序 库 API 里 面 一 个 简单 的 高 斯 过 程 回 归 方 法 (Gaussian process 
regression，GPR) 来 演示 。 这 是 用 一 种 非常 灵活 的 非 参 数 方程 (nonparametric function) 对 


问题 ， 但 





带 有 不 确定 性 的 连续 测量 
内 容 ， 而 是 将 注意 力 放 在 数据 可 视 化 上 面 : 





















































车 值 进 行 拟 合 的 方法 。 这 里 不 会 详细 介绍 高 斯 过 程 回归 方法 的 具体 


In[4]: from sklearn.gaussian_process import GausstianProcess 


# 定义 模型 和 要 画 的 数据 

modeL = lambda x: x * np.sin(x) 
xdata = np.array([1, 3, 5, 6, 8]) 
ydata = model(xdata) 


# 计算 高 斯 过 程 拟 合 结果 





gp = GaussianpProcess(Corr='cubic' ，theta0=1e-2，thetaL=le-4，thetaU=1E-1， 


random_start=100) 
gp.fit(xdata[:, np.newaxis], ydata) 


xfit = np.linspace(0, 10, 1000) 


yfit, MSE = gp.predict(xfit[:, np.newaxis], eval_MSE=True) 


dyfit = 2 * np.sqrt(MSE) # 2*sigma~95% 置 信 


区 间 




















现在 ， 我 们 获得 了 xfit、yfit 和 dyfit， 表 示 数 据 的 连续 拟 合 结果 。 接 着 ， 如 上 所 示 将 这 
些 数 据 传 入 plt.errorbar 国 数 。 但 是 我 们 并 不 是 真 的 要 为 1000 个 数据 点 画 上 1000 条 误差 
线 ， 相反 ， 可 以 通过 在 plt.fill_between 函数 中 设置 颜色 来 表示 连续 误差 线 (如 图 4-29 





所 示 ) : 








In[5]: # 将 结果 可 视 化 
plt.plot(xdata, ydata, 'or') 
plt.plot(xfit, yfit, '-', color='gray') 


plt.fill_between(xfit, yfit - dyfit, yfit + dyfit, 
color='gray', alpha=0.2) 
plt.xlim(0, 10); 














图 4-29: 通过 区 域 填充 表示 连续 误差 


请 注意 ， 我 们 将 fiLL_between 函数 设置 为 : 首先 传人 x 轴 坐 标 值 ， 然 后 传 入 y 轴 下 边界 以 
及 y 轴 上 边界 ， 这 样 整个 区 域 就 被 误差 线 填充 了 。 


从 结果 图 形 中 可 以 非常 直观 地 看 出 高 斯 过 程 回归 方法 拟 合 的 效果 : 在 接近 样本 点 的 区 域 ， 
模型 受到 很 强 的 约束 ， 拟 合 误差 非常 小 ， 非 常 接近 真实 值 ， 而 在 远离 样本 点 的 区 域 ， 模 型 
不 受 约束 ， 误 差 不 断 增 大 。 


若 想 获 取 更 多 关于 plt.fill_between() 函数 (以 及 它 与 pLt.fiLL() 的 紧密 关系 ) 选项 的 信 
息 ， 请 参考 函数 文档 或 者 Matplotlib 文档 。 


最 后 提 一 点 ， 如 果 你 觉得 这 样 实现 连续 误差 线 的 做 法 太原 始 ， 可 以 参考 4.16 市 ， 我 们 会 在 
那里 介绍 Seaborn 程序 包 ， 它 提供 了 一 个 更 加 简便 的 API 来 实现 连续 误差 线 。 


4.6 ”密度 图 与 等 高 线 图 


有 时 在 二 维 图 上 用 等 高 线 图 或 者 彩色 图 来 表示 三 维 数据 是 个 不 错 的 方法 。Matplotlib 提供 
了 三 个 函数 来 解决 这 个 问题 ， 用 plt.contour 画 等 高 线 图 、 用 plt.contourf ed 
的 等 高 线 图 (filled contour plot) 的 色彩 、 用 plt.imshow 显示 图 形 。 这 市 将 用 这 函数 介 
绍 一 些 示 例 。 首 先 打开 一 个 Notebook， 然 后 导入 画图 需要 用 的 函数 : 
In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 


plt.style.use('seaborn-white') 
import numpy as np 
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三 维 函 数 的 可 视 化 
首先 用 函数 z = 了 (x, y») 演示 一 个 等 高 线 图 ， 按 照 下 面 的 方式 生成 函数 f (在 2.5 节 已 经 介绍 
过 ， 当 时 用 它 来 演示 数组 的 广播 功能 ) 样本 数据 : 

In[2]: def f(x, y): 

return np.sin(x) ** 10 + np.cos(10 + y * x) * np.cos(x) 

等 高 线 图 可 以 用 plt.contour 函数 来 创建 。 它 需要 三 个 参数 : x 轴 、y 轴 、z 轴 三 个 坐标 
轴 的 网 格 数据 。x 轴 与 y 轴 表 示 图 形 中 的 位 置 ， 而 z 轴 将 通过 等 高 线 的 等 级 来 表示 。 用 
np.meshgrid 函数 来 准备 这 些 数据 可 能 是 最 简单 的 方法 ， 它 可 以 从 一 维 数组 构建 二 维 网 格 
数据 : 

In[3]: x = np.linspace(0, 5, 50) 

y = np.linspace(0, 5, 40) 





























X, Y = np.meshgrid(x, y) 
Z = f(xX, Y) 


现在 来 看 看 标准 的 线形 等 高 线 图 (如 图 4-30 所 示 ) : 


In[4]: plt.contour(X, Y, Z, colors='black'); 
































图 4-30: 用 等 高 线 图 可 视 化 三 维 数据 


需要 注意 的 是 ， 当 图 形 中 只 使 用 一 种 颜色 时 ， 默 认 使 用 虚线 表示 负数 ， 使 用 实 线 表示 正 
数 。 另 外 ， 你 可 以 用 cmap 参数 设置 一 个 线条 配色 方案 来 自 定 义 颜 色 。 还 可 以 让 更 多 的 线 
条 显示 不 同 的 颜色 一 一 可 以 将 数据 范围 等 分 为 20 份 ， 然 后 用 不 同 的 颜色 表示 (如 图 4-31 
所 示 ) : 
In[5]: plt.contour(X, Y, Z, 20, cmap='RdGy'); 

现在 使 用 Rdcy ( 红 - 灰 ，Red-Gray 的 缩写 ) 配色 方案 ， 这 对 于 数据 集中 度 的 显示 效果 比较 
好 。Matplotlib 有 非常 丰富 的 配色 方案 ， 你 可 以 在 Python 里 用 Tab 键 浏 览 plt.cn 模块 对 
应 的 信息 : 


plt.cm.<TAB> 


















































图 4-31: 用 彩色 等 高 线 可 视 化 三 维 数据 











虽然 这 幅 图 看 起 来 漂亮 多 了 ， 但 是 线条 之 间 的 间隙 还 是 有 点 大 。 我 们 可 以 通过 pLt.contourf() 
函数 来 填充 等 高 线 图 (需要 注意 结尾 有 字母 f)， 它 的 语法 和 plt.contour() 是 一 样 的 。 


另外 还 可 以 通过 plt.colorbar() 命令 自动 创建 一 个 表示 图 形 各 种 颜色 对 应 标签 信息 的 颜色 
条 (如 图 4-32 所 示 ) : 


In[6]: plt.contourf(X, Y, Z, 20, cmap='RdGy') 
plt.colorbar(); 




















图 4-32: 带 填充 色 的 三 维 数据 可 视 化 图 


通过 颜色 条 可 以 清晰 地 看 出 ， 黑 色 区 域 是 “波峰 ”(peak)， 红 色 区 域 是 “ 波 谷 ”(valley)。 


但 是 图 形 还 有 一 点 不 尽 如 人 意 的 地 方 ， 就 是 看 起 来 有 点 儿 “ 污 读 斑 班 ”， 不 是 那么 干净 。 
这 是 由 于 颜色 的 改变 是 一 个 离散 而 非 连续 的 过 程 ， 这 并 不 是 我 们 想 要 的 效果 。 你 当然 可 以 
通过 将 等 高 线 的 数量 设置 得 非常 多 来 解决 这 个 问题 ， 但 是 最 终 获 得 的 图 形 性 能 会 很 不 好 ， 
因为 Matplotlib 必须 演 染 每 一 级 的 等 高 线 。 其 实 有 更 好 的 做 法 ， 那 就 是 通过 plt.imshow() 
函数 来 处 理 ， 它 可 以 将 二 维 数 组 演 染 成 渐变 图 。 
图 4-33 为 以 下 代码 的 可 视 化 结果 : 

In[7]: plt.imshow(Z, extent=[0, 5, 0, 5], origin=' lower', 

cmap='RdGy') 


plt.colorbar() 
plt.axis(aspect='image'); 


但 是 ， 使 用 imshow() 函数 时 有 一 些 注 意 事项 。 
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。 plt.imshow() 不 支持 用 x 轴 和 ? 轴 数 据 设置 网 格 ， 而 是 必须 通过 extent 参数 设置 图 形 
的 坐标 范围 [xmin，xmax，ymin，ymax]。 

。 plt.imshow() 默认 使 用 标准 的 图 形 数组 定义 ， 就 是 原点 位 于 左上 角 (浏览 器 都 是 如 此 )， 
而 不 是 绝 大 多 数 等 高 线 图 中 使 用 的 左下 角 。 这 一 点 在 显示 网 格 数据 图 形 的 时 候 必 须 调整 。 

。 plt.imshow() 会 自动 调整 坐标 轴 的 精度 以 适应 数据 显示 。 你 可 以 通过 Pplt. 
axis(aspect='image') 来 设置 x 轴 与 y 轴 的 单位 。 
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图 4-33; 重新 泻 染 三 维 数据 的 彩色 图 











最 后 还 有 一 个 可 能 会 用 到 的 方法 ， 就 是 将 等 高 线 图 与 彩色 图 组 合 起 来 。 例 如 ， 如 果 我 们 想 
创建 如 图 4-34 的 效果 ， 就 需要 用 一 幅 背 景色 半 透 明 的 彩色 图 〈 可 以 通过 alpha 参数 设置 透 
明度 )， 与 另 一 幅 坐 标 轴 相 同 、 带 数据 标签 的 等 高 线 图 县 放 在 一 起 (用 plt.clabel() 函数 
实现 ) : 






































In[8]: contours = plt.contour(X, Y, Z, 3, colors='black') 
plt.clabel(contours, inline=True, fontsize=8) 


plt.imshow(Z, extent=[0, 5, 9, 5], origin="' Lower', 
cmap='RdGy' ，aLpha=0.5) 
plt.colorbar(); 

















图 4-34: 在 彩色 图 上 加 上 带 数据 标签 的 等 高 线 


将 plt.contour、plt.contourf 与 plt.imshow 这 三 个 函数 组 合 起 来 之 后 ， 就 打开 了 用 二 维 
图 画 三 维 数 据 的 无 尽 可 能 。 关 于 这 些 函 数 的 更 多 信息 ， 请 参考 相应 的 程序 文档 。 如 果 对 三 





维 数据 可 视 化 感 兴趣 ， 请 参见 4.14 市 。 


4.7 ”频次 直方 图 、 数 据 区 间 划 分 和 分 布 密度 


一 个 简易 的 频次 直方 图 可 以 是 理解 数据 集 的 良好 开端 。 在 前 面 的 内 容 中 ， 我 们 见 过 了 
Matplotlib 的 频次 直方 图 函数 (详情 请 参见 2.6 节 )。 只 要 导入 了 画图 的 函数 ， 只 用 一 行 代 
码 就 可 以 创建 一 个 简易 的 频次 直方 图 (如 图 4-35 所 示 ) : 
In[1]: %matplotlib inline 
import numpy as np 


import matplotlib.pyplot as plt 
plt.style.use('seaborn-white') 



































data = np.random.randn(1000) 


In[2]: plt.hist(data); 





250 








上 








图 4-35: 一 个 简易 的 频次 直方 图 


hist() 有 许多 用 来 调整 计算 过 程 和 显示 效果 的 选项 ， 下 面 是 一 个 更 加 个 性 化 的 频次 直方 图 
(如 图 4-36 所 示 ) : 
In[3]: plt.hist(data, bins=30, normed=True, alpha=0.5, 


histtype='stepfilled', color='steelblue', 
edgecolor='none' ); 




















图 4-36: 自 定义 的 频次 直方 
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关于 plt.hist 自 定义 选项 的 更 多 内 容 都 在 它 的 程序 文档 中 。 我 发 现在 用 频次 直方 图 对 不 同 
分 布 特征 的 样本 进行 对 比 时 ， 将 histtype='stepfilled' 与 透明 性 设置 参数 alpha 搭配 使 用 
的 效果 非常 好 (如 图 4-37 所 示 ) : 

















In[4]: x1 = np.random.normal(0, 0.8, 1000) 
x2 = np.random.normal(-2, 1, 1000) 
x3 = np.random.normaL(3，2，1000) 


kwargs = dict(histtype='stepfilled', alpha=0.3, normed=True, bins=40) 


plt.hist(x1, **kwargs) 
plt.hist(x2, **kwargs) 
plt.hist(x3, **kwargs); 

















4-37: 同 坐标 轴 的 多 个 频次 直方 图 





如 果 你 只 需要 简单 地 计算 频次 直方 图 (就 是 计算 每 段 区 间 的 样本 数 )， 而 并 不 想 画 图 显示 
它们 ， 那 么 可 以 直接 用 np.histogram(): 


In[5]: counts，bin_edges = np.histogram(data, bins=5) 
print(counts) 








[ 12 190 468 301 29] 


二 维 频 次 直方 图 与 数据 区 间 划 分 
就 像 将 一 维 数组 分 为 区 间 创 建 一 维 频 次 直方 图 一 样 ， 我 们 也 可 以 将 二 维 数组 按照 二 维 区 
间 进 行 切 分 ， 来 创建 二 维 频次 直方 图 。 下 面 将 简单 介绍 几 种 创建 二 维 频次 直方 图 的 方法 。 
首先 ， 用 一 个 多 元 高 斯 分 布 (multivariate Gaussian distribution) 生成 x 轴 与 y 轴 的 样本 
数据 : 
In[6]: mean = [0, 0] 
cov = [[1; 11; [1; .2]] 
x, y = np.random.multivariate_normal(mean, cov, 10000).T 
1. plt.hist2d: 二 维 频次 直方 图 
画 二 维 频次 直方 图 最 简单 的 方法 就 是 使 用 Matplotlib 的 plt.hist2d 函数 (如 图 4-38 所 示 ) : 




















In[12]: pLt.hist2d(x，y，bins=30，cmap='BLues ') 
cb = plt.colorbar() 
cb .set_LabeL('counts in bin') 





counts in bin 











图 4-38: 用 plt.hist2d 函数 画 二 维 频次 直方 


与 plt.hist 函数 一 样 ，plt.hist2d 也 有 许多 调整 图 形 与 区 间 划 分 的 配置 选项 ， 详 细 内 容 都 
在 程序 文档 中 。 另 外 ， 就 像 plt.hist 有 一 个 只 计算 结果 不 画图 的 np.histogram 函数 一 样 ， 
plt.hist2d 类 似 的 函数 是 np.histogram2d， 其 用 法 如 下 所 示 : 


In[8]: counts, xedges, yedges = np.histogram2d(x, y, bins=30) 


关于 二 维 以 上 的 频次 直方 图 区 间 划 分 方法 的 具体 内 容 ， 请 参考 np.histogramdd 函数 的 程序 
文档 。 

2. plt.hexbin: 六 边 形 区 间 划 分 

二 维 频次 直方 图 是 由 与 坐标 轴 正 交 的 方块 分 割 而 成 的 ， 还 有 一 种 常用 的 方式 是 用 正六 边 
形 分 割 。Matplotlib 提供 了 plt.hexbin 满足 此 类 需求 ， 将 二 维 数据 集 分 割 成 蜂 宽 状 (如 攻 
4-39 所 示 ) : 


In[9]: plt.hexbin(x, y, gridsize=30, cmap="'Blues') 
cb = plt.colorbar(label='count in bin') 



































count in bin 














图 4-39: 用 plt.hexbin 函数 画 二 维 频次 直方 
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plt.hexbin 同样 也 有 一 大 堆 有 趣 的 配置 选项 ， 包 括 为 每 个 数据 点 设置 不 同 的 权重 ， 以 及 用 
任意 NumPy 累计 函数 改变 每 个 六 边 形 区 间 划 分 的 结果 (权重 均值 、 标 准 差 等 指标 )。 


3. 核 密度 估计 

还 有 一 种 评估 多 维 数据 分 布 密度 的 常用 方法 是 核 密度 估计 (kernel density estimation， 
KDE)。 我 们 将 在 5.13 节 详细 介绍 这 种 方法 ， 现 在 先 来 简单 地 演示 如 何 用 KDE 方 法 “ 抹 
掉 ” 空 间 中 离散 的 数据 点 ， 从 而 拟 合 出 一 个 平滑 的 函数 。 在 scipy.stats 程序 包 里 面 有 一 
个 简单 快速 的 KDE 实现 方法 ， 下 面 就 是 用 这 个 方法 演示 的 简单 示例 (如 图 4-40 所 示 ) : 


In[10]: from scipy.stats import gaussian_kde 


























# 拟 合 数组 维度 [Ndim，Nsamples] 
data = np.vstack([x, y]) 
kde = gaussian_kde(data) 


# 用 一 对 规则 的 网 格 数据 进行 拟 合 

xgrid = np.linspace(-3.5, 3.5, 40) 

ygrid = np.linspace(-6, 6, 40) 

Xgrid, Ygrid = np.meshgrid(xgrid, ygrid) 

Z = kde.evaluate(np.vstack([Xgrid.ravel(), Ygrid.ravel()])) 





# 画 出 结果 图 

plt.imshow(Z.reshape(Xgrid.shape), 
origin=' lower', aspect='auto', 
extent=[-3.5, 3.5, -6, 6], 
cmap='Blues') 

cb = plt.colorbar() 

cb.set_label("density") 


6 
0135 
4 Q.120 
0105 
2 
0090 
0 0075 上 
Qo60™ 
BE 0045 
0030 
0015 
-6 0000 
-3 了 -1 0 1 2 3 


4-40: 用 KDE 表示 分 布 密度 


KDE 方法 通过 不 同 的 平滑 带宽 长 度 (smoothing length) 在 拟 合 函 数 的 准确 性 与 平 请 性 之 
间作 出 权衡 (无 处 不 在 的 偏差 与 方差 的 取舍 问题 的 一 个 例子 )。 想 找到 恰当 的 平滑 带宽 长 
度 是 件 很 困难 的 事 ，gaussian_kde 通过 一 种 经 验方 法 试图 找到 输入 数据 平滑 长 度 的 近似 
最 优 解 。 








二 
































在 SciPy 的 生态 系统 中 还 有 其 他 的 KDE 方 法 实现 ， 每 种 版 本 都 有 各 自 的 优 缺 点 ， 例 
如 sklearn.neighbors.KernelDensity 和 statsmodels.nonparametric.kernel_density. 
KDEMultivariate。 用 Matplotlib 做 KDE 的 可 视 化 图 的 过 程 比较 繁琐 ，Seaborn 程序 库 ( 详 
情 请 参见 4.16 节 ) 提供 了 一 个 更 加 简洁 的 API 来 创建 基于 KDE 的 可 视 化 图 。 


4.8 配置 图 例 

想 在 可 视 化 图 形 中 使 用 图 例 ， 可 以 为 不 同 的 图 形 元 素 分 配 标 签 。 前 面 介 绍 过 如 何 创 建 简单 
的 图 例 ， 现 在 将 介绍 如 何在 Matplotlib 中 自 定 义 图 例 的 位 置 与 艺术 风格 。 

可 以 用 plt.legend() 命令 来 创建 最 简单 的 图 例 ， 它 会 自动 创建 一 个 包含 每 个 图 形 元 素 的 图 
例 (如 图 4-41 所 示 ) : 


In[1]: import matplotlib.pyplot as plt 
plt.style.use('classic') 



















































































In[2]: %matplotlib inline 
import numpy as np 


In[3]: x = np.linspace(0, 10, 1000) 
fig, ax = plt.subplots() 
ax.plot(x, np.sin(x), '-b', label='Sine') 
ax.plot(x, np.cos(x), '--r', label='Cosine') 
ax.axis('equal') 
leg = ax.legend(); 

















4-41: 图 例 的 默认 配置 








但 是 ， 我 们 经 常 需要 对 图 例 进行 各 种 个 性 化 的 配置 。 例 如 ， 我 们 想 设 置 图 例 的 位 置 ， 并 取 
消 外 边框 (如 图 4-42 所 示 ) : 
In[4]: ax.Legend(Loc='upper left', frameon=False) 
fig 
还 可 以 用 ncol 参数 设置 图 例 的 标签 列 数 (如 图 4-43 所 示 ) : 


In[5]: ax.Legend(frameon=FaLse，Loc='Lower center', ncol=2) 
fig 
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图 4-42: 一 个 自 定义 的 图 例 














4-43: 分 成 两 列 的 图 例 


还 可 以 为 图 例 定义 圆 角 边框 (fancybox)、 增 加 阴影 、 改 变 外 边框 透明 度 (frameatLpha 值 











I 


We 











或 者 改变 文字 间距 (如 图 4-44 所 示 ) : 


In[6]: ax.legend(fancybox=True, framealpha=1, shadow=True, borderpad=1) 
fig 














图 4-44: 贺 角 边框 的 图 侈 


关于 





图 例 的 更 多 配置 信息 ， 请 参考 plt. legend 程序 文档 。 














4.8.1 选择 图 例 显示 的 元 素 


我 们 已 经 看 到 ， 图 例会 默认 显示 所 有 元 素 的 标签 。 如 果 你 不 想 显示 全 部 ， 可 以 通过 一 些 
形 命令 来 指定 显示 图 例 中 的 哪些 元 素 和 标签 。ptt.ptot() 命令 可 以 一 次 创建 多 条 线 ， 返 
线条 实例 列表 。 一 种 方法 是 将 需要 显示 的 线条 传人 ptt.legend()， 另 一 种 方法 是 只 为 需要 
在 图 例 中 显示 的 线条 设置 标签 (如 图 4-45 所 示 ) 


In[7]: y = np.sin(x[:, np.newaxis] + Np.pi * np.arange(0, 2, 0.5)) 
lines = plt.plot(x, y) 








图 
回 








# Lines 变 量 是 一 组 pLt.Line2D 实 例 
plt.legend(lines[:2], ['first', 'second']); 

















图 4-45: 一 种 自 定义 显示 哪些 图 例 元 素 的 方法 





在 实践 中 ， 我 发 现 第 一 种 方法 更 清晰 。 当 然 也 可 以 只 为 需要 在 图 例 中 显示 的 元 素 设置 标签 
(如 图 4-46 所 示 ) : 


In[8]: plt.plot(x, y[:, 0], label='first') 
plt.plot(x, y[:, 1], label='second') 
plt.plot(x, y[:, 2:]) 
plt.legend(framealpha=1, frameon=True); 




















图 4-46: 另 一 种 自 定义 显示 哪些 图 例 元 素 的 方法 
需要 注意 的 是 ， 默 认 情 况 下 图 例会 名 略 那 些 不 带 标签 的 元 素 。 
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4.8.2 在 图 例 中 显示 不 同 尺 寸 的 点 


有 时 ， 默 认 的 图 例 仍 然 不 能 满足 我 们 的 可 视 化 需求 。 例 如 ， 你 可 能 需要 用 不 同 尺 寸 的 点 来 
表示 数据 的 特征 ， 并 且 希 望 创建 这 样 的 图 例 来 反映 这 些 特征 。 下 面 的 示例 将 用 点 的 尺寸 来 
表明 美国 加 州 不 同城 市 的 人 口 数量 。 如 果 我 们 想 要 一 个 通过 不 同 尺 寸 的 点 显示 不 同人 口 数 
































量 级 的 图 例 ， 可 以 通过 隐藏 一 些 数据 标签 来 实现 这 个 效果 〈 如 图 4-47 所 示 ) : 
In[9]: import pandas as pd 


cities = pd.read_ csv('data/california cities.csv') 


# 提取 感 兴趣 的 数据 
lat, lon = cities['latd'], cities['longd'] 
population, area = cities['population total'], cities['area total_km2'] 











# 用 不 同 尺 寸 和 颜色 的 散 点 图 表示 数据 ， 但 是 不 带 标 签 
plt.scatter(lon, lat, label=None, 
c=np. log10(population), cmap='viridis', 
s=area, linewidth=0, alpha=0.5) 
plt.axis(aspect='equal') 
plt.xlabel('longitude') 
plt.ylabel('latitude') 
plt.colorbar(label='log$_{10}$(population)') 
plt.clim(3, 7) 














# 下 面 创建 一 个 图 例 : 
# 画 一 些 带 标签 和 尺寸 的 空 列 表 
for area in [100, 300, 500]: 
plt.scatter([], [], c='k', alpha=0.3, s=area, 
LabeL=str(area) + ' km$^2$') 
plt.legend(scatterpoints=1, frameon=False, 
labelspacing=1, title='City Area') 














plt.title('California Cities: Area and Population'); 
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图 4-47: 美国 加 州 各 城市 的 地 理 位 置 、 面 积 和 人 口 数量 





由 于 图 例 通常 是 图 形 中 对 象 的 参照 ， 因 此 如 果 我 们 想 显 示 某 种 形状 ， 就 需要 将 它 画 出 来 。 
个 示例 中 ， 我 们 想 要 的 对 象 (灰色 圆圈 ) 并 不 在 图 形 中 ， 因 此 把 它们 用 空 列表 假 


但 是 在 这 
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装 画 出 来 。 还 需要 注意 的 是 ， 图 例 只 会 显示 带 标签 的 元 素 。 

为 了 画 出 这 些 空 列表 中 的 图 形 元 素 ， 需 要 为 它们 设置 标签 ， 以 便 图 例 可 以 显示 它们 ， 这 样 
就 可 以 从 图 例 中 获得 想 要 的 信息 了 。 这 个 策略 对 于 创建 复杂 的 可 视 化 图 形 很 有 效 。 

最 后 需要 注意 的 是 ， 在 处 理 这 类 地 理 数据 的 时 候 ， 如 果 能 把 州 的 地 理 边界 或 其 他 地 图 元 素 
也 显示 出 来 ， 那 么 图 形 就 会 更 加 逼真 。Matplotlib 的 Basemap ( 底 图 ) 插件 工具 箱 恰 好 是 做 
这 种 事情 的 最 佳 选 择 ， 我 们 将 在 4.15 节 介 绍 它 。 


4.8.3 同时 显示 多 个 图 例 


有 时 ， 我 们 可 能 需要 在 同一 张 图 上 显示 多 个 图 例 。 不 过 ， 用 Matplotlib 解决 这 个 问题 并 不 
容易 ， 因 为 通过 标准 的 Legend 接口 只 能 为 一 张 图 创建 一 个 图 例 。 如 果 你 想 用 plt. legend() 
或 ax.legend() 方法 创建 第 二 个 图 例 ， 那 么 第 一 个 图 例 就 会 被 覆盖 。 但 是 ， 我 们 可 以 通 
过 从 头 开始 创建 一 个 新 的 图 例 艺 术 家 对 象 (legend artist) ， 然 后 用 底层 的 〈lower-level) 
ax.add_artist() 方法 在 图 上 添加 第 二 个 图 例 (如 图 4-48 所 示 ) : 


In[10]: fig, ax = plt.subplots() 















































































































































Lines = [] 
styles = i ["- ey Ue ' 0 
x = np. Linspace(0, 16， 1600) 


for i in range(4) : 
Lines += ax.plot(x, np.sin(x - i * np.pi / 2)， 
styles[i], color='black') 
ax.axis('equal') 


# 设置 第 一 个 图 例 要 显示 的 线条 和 标签 
ax.legend(lines[:2], ['line A', 'line B'], 
Loc='upper right', frameon=False) 
































# 创建 第 二 个 图 例 ， 通 过 add_artist 方 法 添加 到 图 上 

from matplotlib.legend import Legend 

leg = Legend(ax, lines[2:], ['line C', 'line D'], 
Loc='Lower right', frameon=False) 

ax.add_artist(leg); 

















4-48: 带 双 图 例 的 曲线 图 
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这 里 只 是 小 坛 了 一 下 构成 Matplotlib 图 


形 的 底层 图 例 艺术 家 对 象 。 如 果 你 查看 过 ax. legend() 
的 源 代 码 (前 面 介 绍 过 ， 在 IPython Notebook 里 面 用 ax.Legend?? 来 显示 源 代 码 )， 就 会 发 





现 这 个 函数 通过 几 条 简单 的 逻辑 就 全 


| 建 了 一 个 Legend 





legend_ 属性 里 。 当 图 形 被 画 出 来 之 后 ， 就 可 以 将 该 图 例 增加 到 图 形 上 。 





4.9 配置 颜色 条 


图 例 艺术 家 对 象 ， 然 后 被 保存 到 了 


图 例 通 过 离散 的 标签 表示 离散 的 图 形 元 素 。 然 而 ， 对 于 图 形 中 由 彩色 的 点 、 线 、 面 构成 的 
连续 标签 ， 用 颜色 条 来 表示 的 效果 比较 好 。 在 Matplotlib 里 面 ， 颜 色 条 是 一 个 独立 的 4 
轴 ， 可 以 指明 图 形 中 颜色 的 含义 。 由 于 本 书 是 单 色 印 刷 ， 你 可 以 在 本 书 在 线 附 录 (https:// 
github.com/jakevdp/PythonDataScienceHandbook) 中 查看 这 一 节 图 形 的 彩色 版 本 。 首 先 还 是 

















导入 需要 使 用 的 画图 工具 : 


In[1]: import matplotlib.pyplot 
plt.style.use('classic') 


In[2]: %matplotlib inline 
import numpy as np 


和 在 前 面 看 到 的 一 样 ， 通 过 plt.colorbar 函数 就 可 以 创建 最 简单 的 颜色 条 (如 图 


所 示 ) : 


In[3]: x 
I 


plt.imshow(I) 
plt.colorbar(); 





as plt 


np.linspace(0, 10, 1000) 
np.sin(x) * np.cos(x[:, np.newaxis]) 
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图 4-49: 一 个 简易 的 颜色 条 图 例 





下 


4.9.1 配置 颜色 条 














掉 将 介绍 一 些 颜 色 条 的 个 性 化 配置 方法 ， 让 你 能 将 它们 有 效 地 应 用 于 不 同 场景 中 。 


可 以 通过 cmap 参数 为 图 形 设置 颜色 条 的 配色 方案 (如 图 4-50 所 示 ) : 


In[4]: plt.imshow(I, cmap='gray 
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1000 














图 4-50: 一 个 采用 灰 度 配色 方案 的 图 形 


所 有 可 用 的 配色 方案 都 在 plt.cn 命名 空间 里 面 ， 在 IPython 里 通过 Tab 键 就 可 以 查看 所 有 
的 配置 方案 : 
plt.cm.<TAB> 

有 了 这 么 多 能 够 作为 备 选 的 配色 方案 只 是 第 一 步 ， 更 重要 的 是 如 何 确定 用 哪 种 方案 ! 最 终 
的 选择 结果 可 能 和 你 一 开始 想 用 的 有 很 大 不 同 。 
1. 选择 配色 方案 
关于 可 视 化 图 形 颜 色 选 择 的 全 部 知识 超出 了 本 书 的 介绍 范围 ， 但 如 果 你 想 了 解 与 此 相关 
的 入 门 知 识 ， 可 以 参考 文章 “Ten Simple Rules for Better Figures” (http://bit.ly/2fDJn9])。 
Matplotlib 的 在 线 文档 中 也 有 关于 配色 方案 选择 的 有 趣 论 述 (http:/matplotlib.org/1.4.1/ 
users/colormaps.html) 
一 般 情 况 下 ， 你 只 需要 重点 关注 三 种 不 同 的 配色 方案 。 
顺序 配色 方案 

由 一 组 连续 的 颜色 构成 的 配色 方案 (例如 binary 或 viridis)。 
互 逆 配 色 方案 

通常 由 两 种 互补 的 颜色 构成 ,表示 正 反 两 种 含义 (例如 RdBu 或 Puor)。 
定性 配色 方案 

随机 顺序 的 一 组 颜色 (例如 rainbow 或 jet)。 
jet 是 一 种 定性 配色 方案 ， 曾 是 Matplotlib 2.0 之 前 所 有 版 本 的 默认 配色 方案 。 把 它 作为 默 
认 配 色 方 案 实在 不 是 个 好 主意 ， 因 为 定性 配色 方案 在 对 定性 数据 进行 可 视 化 时 的 选择 空间 
非常 有 限 。 随 着 图 形 亮 度 的 提高 ， 经 常会 出 现 颜色 无 法 区 分 的 问题 。 
可 以 通过 把 jet 转换 为 黑白 的 灰 度 图 看 看 具体 的 颜色 (如 图 4-51 所 示 ) : 
































In[5]: 
from matplotlib.colors import LinearSegmentedColormap 


def grayscale_cmap(cmap): 
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nn "为 配色 方案 显示 灰 度 图 nn 
cmap = plt.cm.get_cmap(cmap) 
colors = cmap(np.arange(cmap.N)) 


# 将 RGBA 色 转换 为 不 同 亮度 的 灰 度 值 

# 参考 链接 http://alienryderflex.com/hsp.html 

RGB_weight = [0.299, 0.587, 0.114] 

luminance = np.sqrt(np.dot(colors[:, :3] ** 2, RGB_weight)) 
colors[:, :3] = luminance[:, np.newaxis] 


return LinearSegmentedColormap.from_list(cmap.name + "_gray", colors, cmap.N) 


def view colormap(cmap): 
""" 用 等 价 的 灰 度 图 表示 配色 方案 """ 
cmap = plt.cm.get_cmap(cmap) 
colors = cmap(np.arange(cmap.N)) 




















cmap = grayscale_cmap(cmap) 
grayscale = cmap(np.arange(cmap.N)) 


fig, ax = plt.subplots(2, figsize=(6, 2), 

subplot_ kw=dict(xticks=[], yticks=[])) 
ax[0].imshow([colors], extent=[0, 10, 0, 1]) 
ax[1].imshow([grayscale], extent=[0, 10, 0, 1]) 


In[6]: view_colormap('jet') 





\ 








4-51: jet 配色 方案 与 非 等 差 的 渐变 亮度 


注意 观察 灰 度 图 里 比较 亮 的 那 部 分 条 纹 。 这 些 亮度 变化 不 均匀 的 条 纹 在 彩色 图 中 对 应 某 一 
段 彩 色 区 间 ， 由 于 色彩 太 接 近 容 易 突 显 出 数据 集中 不 重要 的 部 分 ， 导 致 眼睛 无 法 识别 重 
点 。 更 好 的 配色 方案 是 viridis (已 经 成 为 Matplotlib 2.0 的 默认 配色 方案 )。 它 采用 了 精心 
设计 的 亮度 渐变 方式 ， 这 样 不 仅 便于 视觉 观察 而且 转换 成 灰 度 图 后 也 更 清晰 (如 图 4-52 
所 示 ) : 


In[7]: view colormap('viridis') 














4-52: viridis 配色 方案 和 渐变 亮度 scale 








如 果 你 喜欢 彩虹 效果 ， 可 以 用 cubehelix 配色 方案 来 可 视 化 连续 的 数值 (如 图 4-53 所 示 ) : 


In[8]: view_coLormap('cubeheLix') 

















图 4-53: cubehelix 配色 方案 和 渐变 











至 于 其 他 的 场 
(红色 - 蓝 色 ， 








度 


dt 


景 ， 例 如 要 用 两 种 颜色 表示 正 反 两 种 含义 时 ， 可 以 使 用 RdBu 双色 配色 方案 





Red-Blue 简称 )。 但 正如 图 4-54 所 示 ， 用 红色 、 蓝 色 表示 的 正 反 两 种 信息 














在 灰 度 图 上 看 不 出 差别 ! 





In[9]: view colormap('RdBu') 








I =q i 
HI =i 








图 4-54: RdBu 配色 方案 和 渐变 亮度 
我 们 将 在 后 面 的 章节 中 继续 使 用 这 些 配色 方案 。 





Matplotlib 里 再 








i 有 许多 配色 方案 ， 在 IPython 里 面 用 Tab 键 浏览 ptt.cn 模块 就 可 以 看 到 所 





有 内 容 。 关 于 


Python 语言 中 配色 的 更 多 基本 原则 ， 可 以 参考 Seaborn 程序 库 的 工具 和 文档 


(详情 请 参 4.16 节 ) 。 
2. 颜色 条 刻度 的 限制 与 扩展 功能 的 设置 








Matplotlib 提 任 


t 了 丰富 的 颜色 条 配置 功能 。 由 于 可 以 将 颜色 条 本 身 仅 看 作 是 一 个 plt.Axes 





实例 ， 因 此 前 








而 所 学 的 所 有 关于 坐标 轴 和 刻度 值 的 格式 配置 技巧 都 可 以 派 上 用 场 。 颜 色 条 











有 一 些 有 趣 的 特性 。 例 如 ， 我 们 可 以 缩短 颜色 取 值 的 上 下 限 ， 对 于 超出 上 下 限 的 数据 ， 通 
过 extend 参数 用 三 角 箭 头 表 示 比 上 限 大 的 数 或 者 比 下 限 小 的 数 。 这 种 方法 很 简单 ， 比 如 你 
想 展示 一 张 噪点 图 (如 图 4-55 所 示 ) : 

In[10]: # 为 图 形 像素 设置 1% 噪 点 


speckles = (np.random.random(I.shape) < 0.01) 
I[speckles] = np.random.normal(0, 3, Np.count_nonzero(speckles)) 




















plt.figure(figsize=(10, 3.5)) 


plt.subplot(1, 2, 1) 
plt.imshow(I, cmap='RdBu') 
plt.colorbar() 


plt.subplot(1, 2, 2) 





Matplotlib 数 据 可 视 化 | 227 





plt.imshow(I, cmap='RdBu') 
plt.colorbar(extend='both') 
plt.clim(-1, 1); 
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图 4-55: 设置 颜色 条 扩展 属性 


左边 那 幅 图 是 用 默认 的 颜色 条 刻度 限制 实现 的 效果 ， 噪 点 的 范围 完全 覆盖 了 我 们 感 兴趣 的 
数据 。 而 右边 的 图 形 设置 了 颜色 条 的 刻度 上 下 限 ， 并 在 上 下 限 之 外 增加 了 扩展 功能 ， 这 样 
的 数据 可 视 化 图 形 显 然 更 有 效果 。 
3. 离散 型 颜色 条 
虽然 颜色 条 默认 都 是 连续 的 ， 但 有 时 你 可 能 也 需要 表示 离散 数据 。 最 简单 的 做 法 就 是 使 用 
plt.cm.get_cmap() 函数 ， 将 适当 的 配色 方案 的 名 称 以 及 需要 的 区 间 数 量 传 进去 即 可 (如 图 
4-56 所 示 ) : 

In[11]: pLt.imshow(I，cmap=pLt.cm.get_cmap('BLues'，6)) 


plt.colorbar() 
plt.clim(-1, 1); 












































图 4-56: 离散 型 颜色 条 
这 种 离散 型 颜色 条 和 其 他 颜色 条 的 用 法 相同 。 


4.9.2 ”案例 : 手写 数字 
让 我 们 来 看 一 些 有 趣 的 手写 数字 可 视 化 








加 


， 这 可 能 是 一 个 比较 实用 的 案例 。 数 据 在 Scikit- 
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Learn 里 面 ， 包 含 近 2000 份 8x8 的 手写 数字 缩 略 
先 下 载 数据 ， 然 后 用 plt.imshow() 对 一 些 图 形 进行 可 视 化 〈 如 图 4-57 所 示 ) : 
In[12]: # 加 载 数字 6~5 的 图 形 ， 对 其 进行 可 视 化 


from sklearn.datasets import load digits 
digits = load digits(n_class=6) 





加 














o 
































fig, ax = plt.subplots(8, 8, figsize=(6, 6)) 
for i, axi in enumerate(ax.flat): 
axi.imshow(digits.images[i], cmap='binary') 
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图 4-57: 手写 数字 样本 


由 于 每 个 数字 都 由 64 像素 的 色相 (hue) 构成 ， 因 此 可 以 将 每 个 数字 看 成 是 一 个 位 于 64 
维 空间 的 点 ， 即 每 个 维度 表示 一 个 像素 的 亮度 。 但 是 想 通 过 可 视 化 来 描述 如 此 高 维度 的 空 
间 是 非常 困难 的 。 一 种 解决 方案 是 通过 降 维 技 术 ， 在 尽量 保留 数据 内 部 重要 关联 性 的 同时 
降低 数据 的 维度 ， 例 如 流 形 学 习 (manifold learning)。 降 维 是 无 监督 学 习 的 重要 内 容 ，5.1 
节 将 详细 介绍 这 部 分 知识 。 
暂且 不 提 具 体 的 降 维 细 闻 ， 先 来 看 看 如 何 用 流 形 学 习 将 这 些 数据 投影 到 二 维 空间 进行 可 视 
化 (详情 请 参见 5.10 节 ) : 
In[13]: # 用 IsoMap 方 法 将 数字 投影 到 二 维 空间 
from sklearn.manifold import Isomap 


iso = Isomap(n_components=2) 
projection = iso.fit transform(digits.data) 


我 们 将 用 离散 型 颜色 条 来 显示 结果 ， 调 整 ticks 与 cLim 参数 来 改善 颜色 条 (如 图 4-58 所 示 ) : 


In[14]: # 画图 
plt.scatter(projection[:, 0], projection[:, 1], lw=0.1, 
c=digits.target, cmap=plt.cm.get_cmap('cubehelix', 6)) 
plt.colorbar(ticks=range(6), label='digit value') 
plt.clim(-0.5, 5.5) 





























Matplotlib 数 据 可 视 化 | 229 





digit value 


-100 





一 50 
-200 -150 -100 


-50 0 


50 100 150 200 











图 4-58: 手写 数字 像素 的 流 形 学 习 结果 


这 个 投影 结果 还 向 我 们 展示 了 一 些 数据 集 
大 面积 重 登 ， 说 明 一 些 手写 的 5 与 3 难以 





























他 的 数字 ， 像 数字 0 与 数字 1， 隔 得 特别 远 ,， 说明 两 者 不 太 可 能 出 现 混淆 。 这 个 观察 结果 
也 符合 我 们 的 直观 感受 ， 因 为 5 和 3 看 起 来 确实 要 比 0 和 1 更 像 。 








我 们 将 在 第 5 章 深入 学 习 流 形 学 习 和 手写 数字 识别 的 相关 内 容 。 


4.10 多 子 图 


的 有 趣 特性 。 例 如 ， 数 字 5 与 数字 3 在 投影 中 有 
区 分 ， 因 此 自动 分 类 算法 也 更 容易 搞 混 它 们 。 其 

















有 时 候 需 要 从 多 个 角度 对 数据 进行 对 比 。Matplotlib 为 此 提出 了 子 图 (subplot) 的 概念 : 在 








狠 


较 大 的 























形 中 同时 放置 一 组 较 小 的 坐标 轴 。 这 些 子 图 可 能 是 画 中 画 (inset)、 网 格 





图 (grid 


of plots) ， 或 者 是 其 他 更 复杂 的 布局 形式 。 在 这 一 节 中 ， 我 们 将 介绍 四 种 用 Matplotlib 创建 





子 图 











的 方法 。 首 先 ， 在 Notebook 中 导入 画图 需要 的 程序 库 ， 





In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 
plt.style.use('seaborn-white') 
import numpy as np 
4.10.1 plt.axes: 手动 创建 子 图 
创建 坐标 轴 最 基本 的 方法 就 是 使 用 plt.axes 国 数 。 前 面 已 经 介绍 过 ， 














是 创建 一 个 标准 的 坐标 轴 ， 填 满 整 张 图 。 它 还 有 一 个 可 选 参数 ， 由 
构成 。 这 四 个 值 分 别 表示 图 形 4 
标 、 宽 度 、 高 度 )， 数 值 的 取 值 范围 


























这 个 函数 的 默认 配置 
图 形 坐 标 系统 的 四 个 值 





E 标 系统 的 [bottom，LeFt，width，heigoht] ( 底 坐 标 、 左 坐 
是 左下 角 (原点 ) 为 0， 右 上 角 为 1。 


如 果 想 要 在 右上 角 创 建 一 个 画 中 画 ， 那 么 可 以 首先 将 x 与 设置 为 0.65 (就 是 坐标 轴 原 点 


位 于 图 形 高 度 65% 和 宽度 65% 的 位 置 )， 然 后 将 x 与 y 扩展 到 0.2 
度 与 高 度 设 置 为 图 形 的 20% ) 。 图 4-59 显示 了 代码 的 结果 : 


In[2]: ax1 = plt.axes() # 默认 坐标 轴 
ax2 = plt.axes([0.65, 0.65, 0.2, 0.2]) 











(也 就 是 将 坐标 轴 的 宽 
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图 4-59: 图 中 图 的 坐标 轴 


面向 对 象 画图 接口 中 类 似 的 命令 有 fig.add_axes()。 用 这 个 命令 创建 两 个 竖 直 排 列 的 坐标 
轴 (如 图 4-60 所 示 ): 


In[3]: fig = plt.figure() 
ax1 = fig.add_axes([0.1, 0.5, 0.8, 0.4], 
xticklabels=[], ylim=(-1.2, 1.2)) 
ax2 = fig.add_axes([0.1, 0.1, 0.8, 0.4], 
ylim=(-1.2, 1.2)) 





x = np.Linspace(0，10) 
ax1.pLot(np.sin(x)) 
ax2.plot(np.cos(x)); 














图 4-60: 竖 直 排列 的 坐标 轴 
现在 就 可 以 看 到 两 个 紧 挨 着 的 坐标 轴 (上 面 的 坐标 轴 没 有 刻度 ) : 上 子 图 (起 点 y 坐标 为 
0.5 位 置 ) 与 下 子 图 的 x 轴 刻 度 是 对 应 的 (起 点 y 坐标 为 0.1， 高 度 为 0.4)。 


4.10.2 plt.subplot: 简易 网 格子 图 


若干 彼此 对 齐 的 行列 子 图 是 常见 的 可 视 化 任务 ，Matplotlib 拥有 一 些 可 以 轻松 创建 它们 的 
简便 方法 。 最 底层 的 方法 是 用 plt.subplot() 在 一 个 网 格 中 创建 一 个 子 图 。 这 个 命令 有 三 
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个 整 型 参数 一 一 将 要 创建 的 网 格子 图 行 数 、 列 数 和 索引 值 ， 索 引 值 从 1 开始 ， 从 左上 角 到 











右 下 角 依 次 增 大 (如 图 4-61 所 示 ) : 


In[4]: for i in range(1, 7): 
plt.subplot(2, 3, i) 
plt.text(0.5, 0.5, str((2, 3, i)), 
fontsize=18, ha='center') 
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4-61: plt.subplot() 





plt.subplots_adjust 命令 可 以 调整 子 图 之 间 的 间隔 。 用 面向 对 象 接口 的 命令 fig.add_ 














subplot() 可 以 取得 同样 的 效果 (结果 如 图 4-62 所 示 ) : 


In[5]: fig = plt.figure() 
fig.subplots_adjust(hspace=0.4, wspace=0.4) 
for i in range(1, 7): 
ax = fig.add_subplot(2, 3, i) 
ax.text(0.5, 0.5, str((2, 3, i)), 
fontsize=18, ha='center') 








10 10 10 
08 08 08 
dl 
us 04 04 
02 02 02 


00 00 00 
00 02 04 06 08 10 00 0204 06 08 10 00 02 0406 08 10 


10 10 10 
08 08 08 
ww (234) | “| (2,3,5) 1 (2 人 0 
04 04 04 
02 02 02 


00 00 00 
00 02 0406 08 10 00 0204 06 08 10 00 02 0406 08 10 











4-62: 带 边 距 调整 功能 的 plt.subplot() 


我 们 通过 plt.subplots_adjust 的 hspace 与 wspace 参数 设置 与 图 形 高 度 与 宽度 一 致 的 子 图 
间距 ， 数 值 以 子 图 的 尺寸 为 单位 〈 在 本 例 中 ， 间 距 是 子 图 宽度 与 高 度 的 40% ) 。 








4.10.3 plt.subplots: 用 一 行 代 码 创 建 网 格 


当 你 打算 创建 一 个 大 型 网 格子 图 时 ， 就 没 办 法 使 用 前 面 那 种 亦 步 亦 趋 的 方法 了 ， 尤 其 是 当 
你 想 隐藏 内 部 子 图 的 x 轴 与 y 轴 标 题 时 。 出 于 这 一 需求 ，plt.subplots() 实现 了 你 想 要 的 
功能 (需要 注意 此 处 subplots 结尾 多 了 个 s)。 这 个 函数 不 是 用 来 创建 单个 子 图 的 , 而 是 
用 一 行 代码 创建 多 个 子 图 ， 并 返回 一 个 包含 子 图 的 NumPy 数组 。 关 键 参数 是 行 数 与 列 数 ， 
以 及 可 选 参数 sharex 与 sharey， 通 过 它们 可 以 设置 不 同 子 图 之 间 的 关联 关系 。 


我 们 将 创建 一 个 2x3 网 格子 图 ， 每 行 的 3 个子 图 使 用 相同 的 y 轴 坐 标 ， 每 列 的 2 个 子 图 
使 用 相同 的 x 轴 坐 标 (如 图 4-63 所 示 ) : 


In[6]: fig, ax = plt.subplots(2, 3, sharex='col', sharey='row') 
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4-63: plt.subplots() 方 法 共享 x 轴 与 》 轴 坐 标 














设置 sharex 与 sharey 参数 之 后 ， 我 们 就 可 以 自动 去 掉 网 格 内 部 子 图 的 标签 ， 让 图 形 看 起 
来 更 整洁 。 坐 标 轴 实 例 网 格 的 返回 结果 是 一 个 NumPy 数组 ， 这 样 就 可 以 通过 标准 的 数组 
取 值 方式 轻松 获取 想 要 的 坐标 轴 了 (如 图 4-64 所 示 ) : 

In[7]: # 坐标 轴 存 放 在 一 个 NumPy 数 组 中 ， 按 照 [row，coz] 取 值 


for i in range(2): 
for j in range(3): 
ax[i, j].text(0.5, 0.5, str((i, j)), 
fontsize=18, ha='center') 




















fig 
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4-64: 确定 网 格 中 的 子 图 
与 plt.subplot() 相 比 ，plt.subplots() 与 Python 索引 从 0 开始 的 习惯 保持 一 致 。 


4.10.4 ”plt.Gridspec: 实现 更 复杂 的 排列 方式 

如 果 想 实现 不 规则 的 多 行 多 列子 图 网 格 ，plt.Gridspec() 是 最 好 的 工具 。plt.Gridspec() 
对 象 本 身 不 能 直接 创建 一 个 图 形 ， 它 只 是 plt.subplot() 命令 可 以 识别 的 简易 接口 。 例 如 ， 
一 个 带 行列 间距 的 2x3 网 格 的 配置 代码 如 下 所 示 : 


In[8]: grid = plt.GridSpec(2, 3, wspace=0.4, hspace=0.3) 


可 以 通过 类 似 Python 切片 的 语法 设置 子 图 的 位 置 和 扩展 尺寸 (如 图 4-65 所 示 ) : 


In[9]: plt.subplot(grid[0, 0]) 
plt.subplot(grid[0, 1:]) 
plt.subplot(grid[1, :2]) 
plt.subplot(grid[1, 21); 
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4-65: 用 pLt.GridSpec 生成 不 规则 子 图 


这 种 灵活 的 网 格 排列 方式 用 途 十 分 广泛 ， 我 经 常会 用 它 来 创建 如 图 4-66 所 示 的 多 轴 频 次 直 
方 图 (multi-axes histogram) (如 图 4-66 所 示 ) : 

















注 1: 与 MATLAB 的 索引 从 1 开始 类 似 。 译 者 注 











234 | 第 4 章 


In[16]: # 创建 一 些 正 态 分 布 数据 
mean = [0, 0] 
eov = ELL T1521]] 
x, y = Np.random.multivariate_normal(mean, cov, 3000).T 


# 设置 坐标 轴 和 网 格 配置 方式 

fig = plt.figure(figsize=(6, 6)) 

grid = plt.GridSpec(4, 4, hspace=0.2, wspace=0.2) 

main_ ax = fig.add_subplot(grid[:-1, 1:]) 

y_hist = fig.add_subplot(grid[:-1, 0], xticklabels=[], sharey=main_ax) 
x_hist = fig.add_subplot(grid[-1, 1:], yticklabels=[], sharex=main_ax) 


# 主 坐 标 轴 画 散 点 图 


main_ax.plot(x, y, 'ok', markersize=3, alpha=0.2) 














# 次 坐标 轴 画 频次 直方 图 

x_hist.hist(x, 40, histtype='stepfilled', 
orientation='vertical', color='gray') 

x_hist.invert_yaxis() 


y_hist.hist(y, 40, histtype='stepfilled', 
orientation='horizontal', color='gray') 
y_hist.invert_xaxis() 








-4 











图 4-66: 用 plt.Gridspec 可 视 化 多 维 分 布 数据 
这 种 类 型 的 分 布 图 十 分 常见 ，Seaborn 程序 包 提 供 了 专门 的 API 来 实现 它们 ， 详 情 请 参见 
4.16 节 。 
mm A 二 对 
4.11 文字 与 注释 
一 个 优秀 的 可 视 化 作品 就 是 给 读者 讲 一 个 精彩 的 故事 。 虽 然 在 一 些 场景 中 ， 这 个 故事 可 以 


完全 通过 视觉 来 表达 ， 不 需要 任何 多 余 的 文字 。 但 在 另外 一 些 场景 中 ， 辅 之 以 少量 的 文字 
提示 (textual cue) 和 标签 是 必 不 可 少 的 。 虽 然 最 基本 的 注释 (annotation) 类 型 可 能 只 是 
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[六 


坐标 轴 标 题 与 图 标题 ， 但 注释 可 远 远 不 止 这 些 。 让 我 们 可 视 化 一 些 数据 ， 看 看 如 何 通 过 添 
加 注释 来 更 恰当 地 表达 信息 。 还 是 先 在 Notebook 里 面 导入 画图 需要 用 到 的 一 些 函 数 : 
In[1]: %matplotlib inline 

import matplotlib.pyplot as plt 

import matplotlib as mpl 

plt.style.use('seaborn-whitegrid') 


import numpy as np 
import pandas as pd 


4.11.1 案例 : 节假日 对 美国 出 生 率 的 影响 

让 我 们 用 3.10.4 节 介 绍 过 的 的 数据 来 演示 。 在 那个 案例 中 ， 我 们 画 了 一 幅 图 表示 美国 每 
一 年 的 出 生 人 数 。 和 前 面 一 样 ， 数 据 可 以 在 https://raw.githubusercontent.com/jakevdp/data- 
CDCbirths/master/births.csv 下 载 。 

首先 用 前 面 介绍 过 的 清洗 方法 处 理 数 据 ， 然 后 画 出 结果 (如 图 4-67 所 示 ) : 


In[2]: 
births = pd.read_csv('births.csv') 





















































quartiles = np.percentile(births['births'], [25, 50, 75]) 
mu, sig = quartiles[1], 0.74 * (quartiles[2] - quartiles[0]) 
births = births.query('(births > @mu - 5 * @sig) & (births < @mu + 5 * @sig)') 


births['day'] = births['day'].astype(int) 


births.index = pd.to_datetime(10000 * births.year + 
100 * births.month + 
births.day, format="'%Y%m%d') 
births_by_date = births.pivot table('births', 
[births.index.month, births.index.day]) 
births_by_date.index = [pd.datetime(2012, month, day) 
for (month, day) in births_by_date.index] 


In[3]: fig, ax = plt.subplots(figsize=(12, 4)) 
births_by_date.plot(ax=ax); 
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在 用 这 样 的 图 表达 观点 时 ， 如 果 可 以 在 图 中 增加 一 些 注释 ， 就 更 能 吸引 读者 的 注意 了 。 可 

















以 通过 plt.text/ ax.text 命令 手动 添加 注释 ， 它 们 可 以 在 具体 的 x /17 坐标 点 上 放 上 文字 
(如 图 4-68 所 示 ) : 





In[4]: fig, ax = plt.subplots(figsize=(12, 4)) 
births_by_date.plot(ax=ax) 





# 在 图 上 增加 文字 标签 
style = dict(size=10, color='gray') 














ax.text('2012-1-1', 3950, "New Year's Day", **style) 
ax.text('2012-7-4', 4250, "Independence Day", ha='center', **style) 
ax.text('2012-9-4', 4850, "Labor Day", ha='center', **style) 
ax.text('2012-10-31', 4600, "Halloween", ha='right', **style) 
ax.text('2012-11-25', 4450, "Thanksgiving", ha='center', **style) 
ax.text('2012-12-25', 3850, "Christmas ", ha='right', **style) 


# 设置 坐标 轴 标 题 
ax.set(title='USA births by day of year (1969-1988) ' ， 
ylabel='average daily births') 





# 设置 x 轴 刻 度 值 ， 让 月 份 居中 显示 
ax.xaxis.set_major_locator(mpl.dates.MonthLocator()) 
ax.xaxis.set_minor_locator(mpl.dates.MonthLocator(bymonthday=15)) 
ax.xaxis.set major_formatter(plt.NullFormatter()) 

ax.xaxis.set minor_formatter(mpl.dates.DateFormatter('%h')); 
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图 4-68: 为 日 均 出 生 人 数 统计 图 添加 注释 


ax.text 方法 需要 一 个 x 轴 坐 标 、 一 个 》 轴 坐标 、 一 个 字符 串 和 一 些 可 选 参数 ， 比 如 文字 
的 颜色 、 字 号 、 风 格 、 对 章 方式 以 及 其 他 文字 属性 。 这 里 用 了 ha='right ' 与 ha='center '， 


ha 是 








水 平 对 齐 方式 (horizonal alignment) 的 缩写 。 关 于 配置 参数 的 更 多 信息 ， 请 参考 


plt.text() 与 mpL.text.Text() 的 程序 文档 。 


4.1 





1.2 坐标 变换 与 文字 位 置 


前 面 的 示例 将 文字 放 在 了 目标 数据 的 位 置 上 。 但 有 时 候 可 能 需要 将 文字 放 在 与 数据 无 关 的 位 置 
上 ， 比 如 坐标 轴 或 者 图 形 中 。 在 Matplotlib 中 ， 我 们 通过 调整 坐标 变换 (transform) 来 实现 。 
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任何 图 形 显示 框架 都 需要 一 些 变换 坐标 系 的 机 制 。 例 如 ， 当 一 个 位 于 (x,y) = (1, D 位 置 的 


点 需要 以 某 种 方式 显示 在 





图 上 特定 的 位 置 时 ， 就 需要 用 屏幕 的 像素 来 表示 。 用 数学 方法 处 

















二 











时 这 种 坐标 系 变换 很 简单 


，Matplotlib 有 一 组 非常 棒 的 工具 可 以 实现 类 似 功能 (这 些 工具 


位 于 matplotlib.transforms 子 模块 中 )。 





虽然 一 般 用 户 并 不 需要 关心 这 些 变 换 的 细节 ， 但 是 了 解 这 些 知 识 对 在 图 上 放置 文字 大 有 帮 


助 。 一 共有 三 种 解决 这 类 问题 的 预定 义 变换 方式 。 
ax.transData 
以 数据 为 基准 的 坐标 变换 。 
ax.transAxes 
以 坐标 轴 为 基准 的 坐标 变换 (以 坐标 轴 维 度 为 单位 )。 
fig.transFigure 
以 图 形 为 基准 的 坐标 变换 (以 图 形 维度 为 单位 )。 
四 举 一 个 例子 ， 用 三 种 变换 方式 将 文字 画 在 不 同 的 位 置 (如 图 4-69 所 示 ) : 


In[5]: fig, ax = plt.subplots(facecolor='lightgray') 
ax.axis([0, 10, 0, 10]) 


























下 




















# 虽然 transform=ax.transData 是 默认 值 ， 但 还 是 设置 一 下 

ax.text(1, 5, ". Data: (1, 5)", transform=ax.transData) 

ax.text(0.5, 0.1, ". Axes: (0.5, 0.1)", transform=ax.transAxes) 
ax.text(0.2, 0.2, ". Figure: (0.2, 0.2)", transform=fig.transFigure); 
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图 4-69: 对 比 Matplotlib 的 三 种 坐标 系 (1) 





默认 情况 下 ， 上 面 的 文字 在 各 自 的 坐标 系 中 都 是 左 对 齐 的 。 这 三 个 字符 串 开 头 的 . 字符 基 














本 就 是 对 应 的 坐标 位 置 。 





transData 坐标 用 x 轴 与 》 轴 的 标签 作为 数据 坐标 。transAxes 坐标 以 坐标 轴 (图 中 白色 和 矩 
形 ) 左下 角 的 位 置 为 原点 ， 按 坐标 轴 尺 寸 的 比例 呈现 坐标 。transFigure 坐标 与 之 类 似 ， 























不 过 是 以 图 形 (图 中 灰色 矩形) 左下 角 的 位 置 为 原点 ， 按 图 形 尺 寸 的 比例 呈现 坐标 。 














需要 注意 的 是 ， 假 如 你 改变 了 坐标 轴 上 下 限 ， 那 么 只 有 transData 坐标 会 受 影 响 ， 其 他 坐 





标 系 都 不 变 (如 图 4-70 所 示 ) : 








In[6]: ax.set xlim(0, 2) 
ax.set_ylim(-6, 6) 
fig 





Data- (1, 5) 


Figure: (0.2, 0.2) Axes: (0.5, 0.1) 
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4-70: 对 比 Matplotlib 的 三 种 坐标 系 (2) 

















如 果 你 改变 了 坐标 轴 上 上 下限， 那么 就 可 以 更 清晰 地 看 到 刚刚 所 说 的 变化 。 如 果 你 是 在 
Notebook 里 运行 本 书 代 码 的 ， 那 么 可 以 把 %matplotlib ;intLine 改 成 %matplotlib notebook， 
然后 用 图 形 菜单 与 图 形 交 互 ( 拖 动 按钮 即 可 ) ， 就 可 以 实现 坐标 轴 平 移 了 。 


4.11.3 箭头 与 注释 

除了 刻度 线 和 文字 ， 简 单 的 箭头 也 是 一 种 有 用 的 注释 标签 。 

在 Matplotlib 里 面 画 箭头 通常 比 你 想象 的 要 困难 。 虽 然 有 一 个 plt.arrow() 函数 可 以 实现 这 
个 功能 ， 但 是 我 不 推荐 使 用 它 ， 因 为 它 创 建 出 的 箭头 是 SVG 向 量 图 对 象 ， 会 随 着 图 形 分 
辩 率 的 变化 而 改变 ， 最 终 的 结果 可 能 完全 不 是 用 户 想 要 的 。 我 要 推荐 的 是 plt.annotate() 
国 数 。 这 个 国 数 既 可 以 创建 文字 ， 也 可 以 创建 箭头 ， 而 且 它 创建 的 箭头 能 够 进行 非常 灵活 
的 配置 。 

看 用 annotate 的 一 些 配 置 选项 来 演示 (如 图 4-71 所 示 ) : 


In[7]: %matplotlib inline 
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fig, ax = plt.subplots() 


x = np.linspace(0, 20, 1000) 
ax.plot(x, np.cos(x)) 
ax.axis('equal') 


ax.annotate('local maximum', xy=(6.28, 1), xytext=(10, 4), 
arrowprops=dict(facecolor='black', shrink=0.05)) 


x.annotate('local minimum', xy=(5 * np.pi, -1), xytext=(2, -6)， 
arrowprops=dict(arrowstyle="->", 
connectionstyle="angle3,angleA=0,angleB=-90")); 


[a 
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图 4-71: 图 形 注释 


箭头 的 风格 是 通过 arrowprops 字典 控制 的 ， 里面 有 许多 可 用 的 选项 。 由 于 这 些 选项 在 
Matplotlib 的 官方 文档 中 都 有 非常 详细 的 介绍 ， 我 就 不 再 歼 述 ， 仅 做 一 .点 儿 功 和 E 演 示 。 让 
我 们 用 前 面 的 美国 出 生 人 数 图 来 演示 一 些 箭 头 注释 (如 图 4-72 所 示 ) : 


In[8]: 
fig, ax = plt.subplots(figsize=(12, 4)) 
births_by_date.plot(ax=ax) 


# 在 图 上 增加 箭头 标签 
ax.annotate("New Year's Day", xy=('2012-1-1', 4100), xycoords='data ' ， 
xytext=(50, -30), textcoords='offset points', 
arrowprops=dict(arrowstyLe=" ->"， 
connectionstyle="arc3,rad=-0.2")) 
































ax.annotate("Independence Day", xy=('2012-7-4', 4250), xycoords='data', 
bbox=dict(boxstyle="round", fc="none", ec="gray"), 
xytext=(10, -40), textcoords='offset points', ha='center', 
arrowprops=dict(arrowstyle="->")) 


ax.annotate('Labor Day', xy=('2012-9-4', 4850), xycoords='data', ha='center', 
xytext=(0, -20), textcoords='offset points') 

ax.annotate('', xy=('2012-9-1', 4850), xytext=('2012-9-7', 4850), 
xycoords='data', textcoords='data', 
arrowprops={"'arrowstyle': '|-|,widthA=0.2,widthB=0.2', }) 


ax.annotate('Halloween', xy=('2012-10-31', 4600), xycoords='data', 
xytext=(-80, -40), textcoords='offset points', 
arrowprops=dict(arrowstyle="fancy", 
fc="0.6", ec="none", 
connectionstyle="angle3,angleA=0,angleB=-90")) 


ax.annotate('Thanksgiving', xy=('2012-11-25', 4500), xycoords='data', 
xytext=(-120, -60), textcoords='offset points', 
bbox=dict(boxstyle="round4,pad=.5", fc="0.9"), 
arrowprops=dict(arrowstyLe=" ->"， 
connectionstyle="angle,angleA=0,angleB=80,rad=20")) 





ax.annotate('Christmas', xy=('2012-12-25', 3850), xycoords='data' ， 
xytext=(-30, 0), textcoords='offset points', 
size=13, ha='right', va="center", 
bbox=dict(boxstyle="round", alpha=0.1), 
arrowprops=dict(arrowstyle="wedge, tail_width=0.5", alpha=0.1)); 





# 设置 坐标 轴 标 题 
ax.set(title='USA births by day of year (1969-1988) ' ， 
ylabel='average daily births') 


# 设置 x 轴 刻 度 值 ， 让 月 份 居中 显示 
ax.xaxis.set_major_locator(mpl.dates.MonthLocator()) 
ax.xaxis.set_minor_locator(mpl.dates.MonthLocator (bymonthday=15)) 
ax.xaxis.set major_formatter(plt.NullFormatter()) 

ax.xaxis.set_ minor_formatter(mpl.dates.DateFormatter('%h')); 


ax.set_ylim(3600, 5400); 
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4-72: 带 注释 的 日 均 出 生 人 数 


你 可 、 


能 已 经 注意 到 了 ， 箭 头 和 文本 框 的 配置 功能 非常 细致 ， 这 样 你 就 可 以 创建 自己 想 要 的 








箭头 风格 了 。 不 过 ， 功 能 太 过 细致 往往 也 就 意味 着 操作 起 来 比较 复杂 ， 如 果真 要 做 一 个 产 
品级 的 图 形 ， 可 能 得 耗费 大 量 的 时 间 。 最 后 我 想 说 一 句 ， 前 面 适用 的 混合 风格 并 不 是 数据 
可 视 化 的 最 佳 实践 ， 仅 仅 是 为 演示 一 些 功能 而 已 。 

关于 箭头 和 注释 风格 的 更 多 介绍 与 示例 ， 可 以 在 Matplotlib 的 画廊 (gallery) 中 看 到 ， 尤 
其 推荐 http://matplotlib.org/examples/pylab_examples/annotation_demo2.html 这 个 例子 。 


4.12 自 定 义 坐 标 轴 刻 度 


虽然 Matplotlib 默认 的 坐标 轴 定 位 器 (locator) 与 格式 生成 器 (formatter) 可 以 满足 大 部 分 
需求 ， 但 是 并 非 对 每 一 幅 图 都 合适 。 本 市 将 通过 一 些 示例 演示 如 何 将 坐标 轴 刻 度 调整 为 你 
需要 的 位 置 与 格式 。 






































在 介绍 示例 之 前 ， 我 们 最 好 先 对 Matplotlib 图 形 的 对 象 层 级 有 更 深入 的 理解 。 Matplotlib 的 





目标 是 用 Python 对 象 表现 任意 图 形 元 素 。 例 如 ， 想 想 前 面 介绍 的 figure 对 象 ， 它 其 实 就 






































一 个 盛 放 图 形 元 素 的 包围 盒 (bounding box)。 可 以 将 每 个 Matplotlib 对 象 都 看 成 是 子 对 
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象 (sub-object) 的 容器 ， 例 如 每 个 figure 都 会 包含 一 个 或 多 个 axes 对 象 ， 每 个 axes 对 象 
又 会 包含 其 他 表示 图 形 内 容 的 对 象 。 


E 标 轴 刻 度 线 也 不 例外 。 每 个 axes 都 有 xaxis 和 yaxts 属性 ， 每 个 属性 同样 包含 构成 坐标 
和 的 线条 、 刻 度 和 标签 的 全 部 属性 。 


4.12.1 主要 刻度 与 次 要 刻度 


一 个 坐标 轴 都 有 主要 刻度 线 与 次 要 刻度 线 。 顾 名 思 义 ， 主 要 刻度 往往 更 大 或 更 显著 ， 而 
次 要 刻度 往往 更 小 。 虽然 一 般 情况 下 Matplotlib 不 会 使 用 次 要 刻度 ， 但 是 你 会 在 对 数 图 中 
看 到 它们 (如 图 4-73 所 示 ) : 
In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 


plt.style.use('seaborn-whitegrid') 
import numpy as np 
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In[2]: ax = plt.axes(xscale='l0og', yscale='log') 
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图 4-73; 对 数 刻 度 与 标签 
我 们 发 现 每 个 主要 刻度 都 显示 为 一 个 较 大 的 刻度 线 和 标签 ， 而 次 要 刻度 都 显示 为 一 个 较 小 
的 刻度 线 ， 且 不 显示 标签 。 


可 以 通过 设置 每 个 坐标 轴 的 formatter 与 Locator 对 象 ， 自 定义 这 些 刻 度 属 性 (包括 刻度 
线 的 位 置 和 标签 )。 来 检查 一 下 图 形 x 轴 的 属性 : 


In[3]: print(ax.xaxis.get_major_locator()) 
print(ax.xaxis.get_ minor_locator()) 














<matplotlib.ticker.LogLocator object at Ox107530cc0> 
<matplotlib.ticker.LogLocator object at 0x107530198> 


In[4]: print(ax.xaxis.get major_formatter()) 
print(ax.xaxis.get _ minor_formatter()) 


<matplotlib.ticker.LogFormatterMathtext object at 0x107512780> 
<matplotlib.ticker.NullFormatter object at 0x10752dc18> 





我 们 会 发 现 ， 主 要 刻度 标签 和 次 要 刻度 标签 的 位 置 都 是 通过 一 个 LogLocator 对 象 (在 对 数 
图 中 可 以 看 到 ) 设置 的 。 然 而 ， 次 要 刻度 有 一 个 NuLLFormatter 对 象 处 理 标 签 ， 这 样 标签 
就 不 会 在 图 上 显示 了 。 


下 面 来 演示 一 些 示 例 ， 看 看 不 同 图 形 的 定位 器 与 格式 生成 器 是 如 何 设 置 的 。 


4.12.2 ”隐藏 刻度 与 标签 
最 常用 的 刻度 /标签 格式 化 操作 可 能 就 是 隐藏 刻度 与 标签 了 ， 可 以 通过 plt.NullLocator() 
与 plt.NullFormatter() 实现 ， 如 下 所 示 (如 图 4-74 所 示 ) : 


In[5]: ax = plt.axes() 
ax.plot(np.random.rand(50)) 









































ax.yaxis.set major_locator(plt.NullLocator()) 
ax.xaxis.set major_formatter(plt.NullFormatter()) 

















图 4-74: 隐藏 图 形 的 x 轴 标 签 与 》 轴 刻 度 


需要 注意 的 是 ， 我 们 移 除了 x 轴 的 标签 (但 是 保留 了 刻度 线 / 网 格 线 )， 以 及 y 轴 的 刻度 
(标签 也 一 并 被 移 除 )。 在 许多 场景 中 都 不 需要 刻度 线 ， 比 如 当 你 想 要 显示 一 组 图 形 时 。 举 
个 例子 ， 像 图 4-75 那样 包含 不 同人 脸 的 照片 ， 就 是 经 常用 于 研究 有 监督 机 器 学 习 问 题 的 示 
例 (详情 请 参见 5.7 节 ) : 


In[6]: fig, ax = plt.subplots(5, 5, figsize=(5, 5)) 
fig.subplots_adjust(hspace=0, wspace=0) 





























# 从 scikit-learn 获 取 一 些 人 脸 照 片 数据 
from sklearn.datasets import fetch olivetti faces 
faces = fetch olivetti faces().images 


for i in range(5): 
for j in range(5): 
ax[i, j].xaxis.set major_locator(plt.NullLocator()) 
ax[i, j].yaxis.set major_locator(plt.NullLocator()) 
ax[i, j].imshow(faces[10 * i + j], cmap="bone") 
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图 4-75: 隐藏 人 脸 图 形 的 坐标 轴 


需要 注意 的 是 ， 由 于 每 幅 人 脸 图 形 默 认 都 有 各 自 的 坐标 铀 ， 然 而 在 这 个 特殊 的 可 视 化 场景 
中 ， 刻 度 值 (本 例 中 是 像素 值 ) 的 存在 并 不 能 传达 任何 有 用 的 信息 ， 因 此 需要 将 定位 器 设 
置 为 空 


4.12.3 ” 增 减 刻度 数量 


默认 刻度 标签 有 一 个 问题 ， 就 是 显示 较 小 图 形 时 ， 通 常 刻度 显得 十 分 拥挤 。 我 们 可 以 在 
4-76 的 网 格 中 看 到 类 似 的 问题 : 


In[7]: fig, ax = plt.subplots(4, 4, sharex=True, sharey=True) 
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图 4-76: 刻度 拥挤 的 图 形 


尤其 是 x 轴 ， 数 字 几 平 都 重 又 在 一 起 ， 辨 识 起 来 非常 困难 。 我 们 可 以 用 plt.MaxNLocator() 
来 解决 这 个 问题 ， 通 过 它 可 以 设置 最 多 需要 显示 多 少 刻度 。 根 据 设置 的 最 多 刻度 数量 ， 
Matplotlib 会 自动 为 刻度 安排 恰当 的 位 置 (如 图 4-77 所 示 ) : 
In[8]: # 为 每 个 坐标 轴 设 置 主要 刻度 定位 器 
for axi in ax.fLat: 
axi.xaxis.set major_locator(plt.MaxNLocator(3)) 


axi.yaxis.set major_locator(plt.MaxNLocator(3)) 
fig 
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图 4-77: 自 定 义 刻度 数量 


这 样 图 形 就 显得 更 简洁 了 。 如 果 你 还 想 要 获得 更 多 的 配置 功能 ， 那 么 可 以 试 试 plt. 
MultipleLocator ， 我 们 将 在 接 下 来 的 内 容 中 介绍 它 。 


4.12.4 ”花哨 的 刻度 格式 


Matplotlib 默认 的 刻度 格式 可 以 请 足 大 部 分 的 需求 。 虽 然 默认 配置 已 经 很 不 错 了 ， 但 是 有 
时 候 你 可 能 需要 更 多 的 功能 ， 例 如 图 4-78 中 的 正弦 曲线 和 余弦 曲线 : 


In[9]: # 画 正 弦 曲 线 和 余弦 曲线 
fig, ax = plt.subplots() 
x = np.linspace(0, 3 * np.pi, 1000) 
ax.plot(x, np.sin(x), lw=3, label='Sine') 
ax.plot(x, np.cos(x), lw=3, label='Cosine') 









































# 设置 网 格 、 图 例 和 坐标 轴 上 下 限 
ax.grid(True) 

ax. legend(frameon=False) 
ax.axis('equal') 
ax.set_xlim(0, 3 * np.pi); 
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4-78: 默认 带 整 数 刻度 的 图 





























我 们 可 能 想 稍稍 改变 一 下 这 幅 图 。 首 先 ， 如 果 将 刻度 与 网 格 线 画 在 7 的 倍数 上 ， 图 形 
会 更 加 自然 。 可 以 通过 设置 一 个 MultipleLocator 来 实现 ， 它 可 以 将 刻度 放 在 你 提供 的 
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数值 的 倍数 上 。 为 了 更 好 地 测量 ， 在 w4 的 倍数 上 添加 主要 刻度 和 次 要 刻度 (如 图 4-79 
所 示 ) : 


In[10]: ax.xaxis.set_major_Locator(pLt.MuLtipLeLocator(np.pPL / 2)) 
ax.xaxis.set minor_locator(plt.MultipleLocator(np.pi / 4)) 
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图 4-79: 在 x/2 的 倍数 上 显示 刻度 


然而 ， 这 些 刻 度 标签 看 起 来 有 点 奇怪 : 虽然 我 们 知道 它们 是 x 的 倍数 ， 但 是 用 小 数 表示 辆 
周 率 不 太 直 观 。 因 此 ， 我 们 可 以 用 刻度 格式 生成 器 来 修改 。 由 于 没有 内 置 的 格式 生成 器 可 
以 直接 解决 问题 ， 因 此 需要 用 plt.FuncFormatter 来 实现 ， 用 一 个 自 定义 的 函数 设置 不 同 
刻度 标签 的 显示 (如 图 4-80 所 示 ) : 


In[11]: def format_func(value, tick_number): 
# 找到 x/2 的 倍数 刻度 
N = int(np.round(2 * vaLue / np.pi)) 
if N == 0: 
return "0" 
elif N == 1: 
return r"$\pi/2$" 
elif N == 2: 
return r"$\pi$" 
elif N%2> 0: 
return r"${0}\pi/2$".format(N) 
else: 
return r"${0}\pi$".format(N // 2) 














ax.xaxis.set major_formatter(plt.FuncFormatter(format_func)) 

fig 
这 样 就 好 看 多 啦 ! 其 实 我 们 已 经 用 了 Matplotlib 支持 LaTeX 的 功能 ， 在 数学 表达 式 两 侧 加 
上 美元 符号 ($)， 这 样 可 以 非常 方便 地 显示 数学 符号 和 数学 公式 。 在 这 个 示例 中 ，"$\pi$" 
就 表示 圆周 率 符合 r。 


当 你 准备 展示 或 打印 图 形 时 ，plt.FuncFormatter() 不 仅 可 以 为 自 定义 图 形 刻度 提供 十 分 灵 
活 的 功能 ， 而 且 用 法 非常 简单 。 
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4-80: 自 定义 刻度 标签 


4.12.5 格式 生成 器 与 定位 器 小 结 

前 面 已 经 介绍 了 一 些 格式 生成 器 与 定位 器 ， 下 面 用 表格 简单 地 总 结 一 下 内 置 的 格式 生成 器 
与 定位 器 选项 。 关 于 两 者 更 详细 的 信息 ， 请 参考 各 自 的 程序 文档 或 者 Matplotlib 的 在 线 文 
档 。 以 下 的 所 有 类 都 在 plt 命名 空间 内 。 
























































定位 器 类 描述 

NullLocator 无 刻度 

FixedLocator 刻度 位 置 固定 

IndexLocator 用 索引 作为 定位 器 (如 x = range(ten(y)) ) 
LinearLocator 从 min 到 max 均匀 分 布 刻度 
LogLocator 从 min 到 max 按 对 数 分 布 刻度 
MultipleLocator 刻度 和 范围 都 是 基数 (base) 的 倍数 
MaxNLocator 为 最 大 刻度 找到 最 优 位 置 
AutoLocator (默认 ) 以 MaxNLocator 进行 简单 配置 
AutoMinorLocator 次 要 刻度 的 定位 器 

格式 生成 器 类 描述 

NullFormatter 刻度 上 无 标签 

IndexFormatter 将 一 组 标签 设置 为 字符 串 
FixedFormatter 手动 为 刻度 设置 标签 

FuncFormatter 用 自 定义 函数 设置 标签 
FormatStrFormatter 为 每 个 刻度 值 设 置 字符 串 格式 
ScalarFormatter 默认 ) 为 标量 值 设置 标签 
LogFormatter 对 数 坐 标 轴 的 默认 格式 生成 器 











我 们 将 在 后 面 的 章节 中 看 到 使 用 这 些 功 能 的 更 多 示例 。 
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4.13 Matplotlib 自 定义 : 配置 文件 与 样式 表 


Matplotlib 的 默认 图 形 设置 经 常 被 用 户 诉 病 。 虽 然 Matplotlib 2.0 版 本 已 经 有 大 幅 改 善 ， 但 
是 掌握 自 定义 配置 的 方法 可 以 让 我 们 打造 自己 的 艺术 风格 。 


首先 简单 浏览 一 下 Matplotlib 的 运行 时 配置 (runtime configuration，rc) 功能 的 介绍 ， 然 后 
再 看 看 新 式 的 样式 表 (stylesheets) 特性 ， 里 面包 含 了 许多 漂亮 的 默认 配置 功能 。 


4.13.1 手动 配置 图 形 


通过 本 章 的 介绍 ， 我 们 已 经 知道 如 何 修改 单个 图 形 配 置 ， 使 得 最 终 图 形 比 原来 的 图 形 更 好 
看 。 可 以 为 每 个 单独 的 图 形 进 行 个 性 化 设置 。 举 个 例子 ， 看 看 由 下 面 这 个 土 到 掉 漆 的 默认 
配置 生成 的 频次 直方 图 (如 图 4-81 所 示 ) : 

In[1]: import matplotlib.pyplot as plt 


plt.style.use('classic') 
import numpy as np 





























%matplotlib inline 


In[2]: x = np.random.randn(1000) 
plt.hist(x); 

















4-81: Matplotlib 默认 配置 的 频次 直方 图 


通过 手动 调整 ， 可 以 让 它 成 为 美 图 ， 最 终 效果 如 图 4-82 所 示 : 


In[3]: # 用 灰色 背景 
ax = plt.axes(axisbg='#E6E6E6') 
ax.set_axisbelow(True) 











# 画 上 白色 的 网 格 线 
plt.grid(color='w', linestyle='solid') 


# 隐藏 坐标 轴 的 线条 
for spine in ax.spines.values(): 
spine.set visible(False) 





# 隐藏 上 边 与 右边 的 刻度 
ax.xaxis.tick_bottom() 
ax.yaxis.tick_left() 


# 弱化 刻度 与 标签 

ax.tick_params(colors='gray', direction='out') 

for tick in ax.get xticklabels(): 
tick.set_color('gray') 

for tick in ax.get_ yticklabels(): 
tick.set_color('gray') 


# 设置 频次 直方 图 轮廓 色 与 填充 色 
ax.hist(x, edgecolor='#E6E6E6', color='#EE6666'); 


业 
图 4-82: 手动 配置 的 频次 直方 图 


这 样 看 起 来 就 漂亮 多 了 。 你 可 能 会 觉得 它 的 风格 与 R 语 言 的 ggplot 可 视 化 程序 包 有 点 儿 
像 。 但 这 样 设置 可 太 费 劲 儿 了 ! 我 们 肯定 不 希望 每 做 一 个 图 都 需要 这 样 手动 配置 一 香 。 好 
在 已 经 有 一 种 方法 ， 可 以 让 我 们 只 配置 一 次 默认 图 形 ， 就 能 将 其 应 用 到 所 有 图 形 上 。 


4.13.2 ”修改 默认 配置 rcParams 


Matplotlib 每 次 加 载 时 ， 都 会 定义 一 个 运行 时 配置 (rc)， 其 中 包含 了 所 有 你 创建 的 图 形 元 
素 的 默认 风格 。 你 可 以 用 plt.rc 简便 方法 随时 修改 这 个 配置 。 来 看 看 如 何 调整 rc 参数 ， 
用 默认 图 形 实现 之 前 手动 调整 的 效果 。 


先 复制 一 下 目前 的 rcParams 字典 ， 这 样 可 以 在 修改 之 后 再 还 原 回来 : 


In[4]: IPython_default = plt.rcPparams.copy() 


现在 就 可 以 用 plt.rc 函数 来 修改 配置 参数 了 : 


In[5]: from matplotlib import cycler 
colors = cycler('color', 
['#EE6666' , '#3388BB' , '#9988DD', 
'#EECCS5S5', '#88BB44', '#FFBBBB']) 
plt.rc('axes', facecolor='#E6E6E6', edgecolor='none', 
axisbelow=True, grid=True, prop_cycle=colors) 
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plt.rc('grid', color='w', linestyle='solid') 
plt.rc('xtick', direction='out', color='gray') 
plt.rc('ytick', direction='out', color='gray') 
plt.rc('patch', edgecolor='#E6E6E6') 
plt.rc('lines', linewidth=2) 


设置 完成 之 后 ， 来 创建 一 个 图 形 看 看 效果 (如 图 4-83 所 示 ) : 


In[6]: plt.hist(x); 
出 
图 4-83: 用 rc 函数 自 定义 频次 直方 图 


再 画 一 些 线 图 看 看 rc 参数 的 效果 (如 图 4-84 所 示 ) : 


In[7]: for i in range(4): 
plt.plot(np.random.rand(10)) 





250 -+ 





,一 本 
































图 4-84: 自 定义 风格 的 线 图 


新 的 艺术 风格 比 之 前 的 默认 风格 更 漂亮 了 。 如 果 你 不 认同 我 的 审美 风格 ， 当 然 可 以 自 
己 调 整 rc 参数， 创造 自己 的 风格 ! 这 些 设 置 会 保存 在 .matplotlibrc 文件 中 ， 你 可 以 在 
Matplotlib 文档 (http://matplotlib.org/users/customizing.html) 中 找到 更 多 信息 。 这 时 有 人 说 
了 ， 他 们 更 喜欢 自 定义 Matplotlib 的 样式 表 。 











4.13.3 样式 表 


2014 年 8 月 发 布 的 Matplotlib 1.4 版 本 中 增加 了 一 个 非常 好 用 的 style 模块 ， 里 面包 含 了 大 
量 的 新 式 默 认 样 式 表 ， 还 支持 创建 和 打包 你 自己 的 风格 。 虽 然 这 些 样式 表 实 现 的 格式 功能 
与 前 面 介绍 的 .matplotlibrc 文件 类 似 ， 但 是 它 的 文件 扩展 名 是 .mplstyle。 
即使 你 不 打算 创建 自己 的 绘图 风格 ， 样 式 表 包含 的 默认 内 容 也 非常 有 用 。 通 过 plt. style. 
available 命令 可 以 看 到 所 有 可 用 的 风格 ， 下 面 将 简单 介绍 前 五 种 风格 : 


In[8]: plt.style.available[:5] 


























Out[8]: ['fivethirtyeight', 
'seaborn-pastel', 
'seaborn-whitegrid', 
‘ggplot', 
'grayscale'] 


使 用 某 种 样式 表 的 基本 方法 如 下 所 示 : 
pPLt.styLe.use('styLename ' ) 


但 需要 注意 的 是 ， 这 样 会 改变 后 面 所 有 的 风格 ! 如 果 需 要 ， 你 可 以 使 用 风格 上 下 文 管 理 
(context manager) 临时 更 换 至 另 一 种 风格 : 


with pLt.styLe.context('styLename ' ) : 
make_a_plot() 
来 创建 一 个 可 以 画 两 种 基本 图 形 的 函数 : 


In[9]: def hist_and_lines(): 
np.random.seed(0) 
fig, ax = plt.subplots(1, 2, figsize=(11, 4)) 
ax[0].hist(np.random.randn(1000)) 
for i in range(3): 
ax[1].plot(np.random.rand(10)) 
ax[1].legend(['a', 'b', 'c'], loc='lower left') 


下 面 就 用 这 个 函数 来 演示 不 同 风格 的 显示 效果 。 
1. 默认 风格 

默认 风格 就 是 本 书 前 面 内 容 中 一 直 使 用 的 风格 ,我们 就 从 这 里 开始 。 首 先 ， 将 之 前 设置 的 
运行 时 配置 还 原 为 默认 配置 : 


In[10]: # 重 置 rcParams 
plt.rcPparams.update(IPython_default); 


现在 来 看 看 默认 风格 的 效果 (如 图 4-85 所 示 ) : 


In[11]: hist_and_lines() 
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图 4-85: Matplotlib 的 默认 风格 


2. FiveThirtyEight 风 格 
FiveThirtyEight 风格 模仿 的 是 著名 网 站 FiveThirtyEight (http://fivethirtyeight.com) 的 绘 
风格 。 如 图 4-86 所 示 ， 这 种 风格 使 用 深 色 的 粗 线条 和 透明 的 坐标 轴 : 


In[12]: with plt.style.context('fivethirtyeight'): 
hist_and_lines() 
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图 4-86: FiveThirtyEight 风格 











3. ggplot 风 格 
R 语言 的 ggplot 是 非常 流行 的 可 视 化 工具 ，Matplotlib 的 ggplot 风格 就 是 模仿 这 个 程序 包 
的 默认 风格 (如 图 4-87 所 示 ) : 


In[13]: with plt.style.context('ggplot'): 
hist_and_lines() 
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图 4-87: ggplot 风格 


4. bmh 风 格 

有 一 本 短小 精 悍 的 在 线 图 书 叫 Probabilistic Programming and Bayesian Methods for Hackers 
(http://bit.ly/2fDJsKC)。 整 本 书 的 图 形 都 是 用 Matplotlib 创建 的 ， 通 过 一 组 rc 参数 创建 了 
一 种 引 人 注 目的 绘图 风格 。 这 个 风格 被 bmh 样式 表 继承 了 (如 图 4-88 所 示 ) : 


In[14]: with plt.style.context('bmh'): 
hist_and_lines() 









































图 4-88: bmh 风格 


5. 黑色 背景 风格 
在 演示 文档 中 展示 图 形 时 ， 用 黑色 背景 而 非 白 色 背 景 往 往 会 取得 更 好 的 效果 。dark_ 
background 风格 就 是 为 此 设计 的 (如 图 4-89 所 示 ) : 


In[15]: with plt.style.context('dark_background'): 
hist_and_lines() 
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4-89: dark_background 风格 


6. 灰 度 风格 
有 时 你 可 能 会 做 一 些 需要 打印 的 图 形 ， 不 能 使 用 彩色 。 这 时 使 用 grayscale 风格 的 效果 最 
好 ， 如 图 4-90 所 示 : 


In[16]: with plt.style.context('grayscale'): 
hist_and_lines() 





























4-90: grayscale 风格 


7. Seaborn 风 格 

Matplotlib 还 有 一 些 灵感 来 自 Seaborn 程序 库 (将 在 4.16 布 详细 介绍 ) 的 风格 ， 这 些 风 格 
在 Notebook 导入 Seaborn 程序 库 后 会 自动 加 载 。 我 觉得 这 些 风格 非常 漂亮 ， 也 是 我 自己 在 
探索 数据 时 一 直 使 用 的 默认 风格 (如 图 4-91 所 示 ) : 


In[17]: import seaborn 
hist_and_lines() 
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图 4-91: Seaborn 绘图 风格 


通过 运用 各 式 各 样 的 内 置 绘图 风格 ，Matplotlib 在 交互 式 可 视 化 与 创建 印刷 品 图 形 两 方面 
都 表现 得 越 来 越 好 。 在 创建 这 本 书 的 图 形 时 ， 我 通常 会 用 一 种 或 几 种 内 置 的 绘图 风格 。 


4.14 用 Matplotlib 画 三 维 图 


Matplotlib 原本 只 能 画 二 维 图 。 大 概 在 1.0 版 本 的 时 候 ，Matplotlib 实现 了 一 些 建 立 在 二 维 
图 基础 上 的 三 维 图 功能 ， 于 是 一 组 画 三 维 图 可 视 化 的 便捷 〈 尚 不 完美 ) 工具 便 诞生 了 。 我 
门 可 以 导入 Matplotlib 自 带 的 mplot3d 工具 箱 来 画 三 维 图 (如 图 4-92 所 示 ) : 


In[1]: from mpl_toolkits import mpLot3d 





















































图 4-92: 一 个 空 的 三 维 坐标 轴 


导入 这 个 子 模块 之 后 ， 就 可 以 在 创建 任意 一 个 普通 坐标 轴 的 过 程 中 加 入 projection='3d 
关键 字 ， 从 而 创建 一 个 三 维 坐标 轴 : 
In[2]: %matplotlib inline 
import numpy as np 
import matplotlib.pyplot as plt 


In[3]: fig = plt.figure() 
ax = plt.axes(projection='3d') 
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有 了 三 维 坐 标 轴 之 后 ， 我 们 就 可 以 在 上 面 画 出 各 种 各 样 的 三 维 图 了 。 三 维 图 的 优点 是 
在 Notebook 里 面 可 以 交互 浏览 而 非 静 止 不 动 ， 和 之 前 介绍 的 交互 式 图 形 一 样 ， 需 要 用 
%matpLotLib notebook 而 不 是 %matplotlib inline 运行 代码 。 


4.14.1 三 维 数 据点 与 线 

最 基本 的 三 维 图 是 由 (x ,y ,z ) 三 维 坐 标点 构成 的 线 图 与 散 点 图 。 与 前 面 介绍 的 普通 二 维 图 
类 似 ， 可 以 用 ax.plot30D 与 ax.scatter3D 函数 来 创建 它们 。 由 于 三 维 图 函数 的 参数 与 前 面 
二 维 图 函数 的 参数 基本 相同 ， 因 此 你 可 以 参考 4.3 节 和 4.4 节 的 内 容 ， 获 取 关 于 控制 输出 
结果 的 更 多 信息 。 下 面 来 画 一 个 三 角 螺 旋 线 (trigonometric spiral) ， 在 线 上 随机 分 布 一 些 
散 点 (如 图 4-93 所 示 ) : 


In[4]: ax = plt.axes(projection='3d') 


# 三 维 线 的 数据 

zline = np.linspace(0, 15, 1000) 
xline = np.sin(zline) 

yline = np.cos(zline) 

ax.plot3D(xline, yline, zline, 'gray') 


# 三 维 散 点 的 数据 

zdata = 15 * np.random.random(100) 

xdata = np.sin(zdata) + 0.1 * np.random.randn(100) 

ydata = np.cos(zdata) + 0.1 * np.random.randn(100) 
ax.scatter3D(xdata, ydata, zdata, c=zdata, cmap='Greens'); 





























































































































4-93: 三 维 点 线 图 





默认 情况 下 ， 散 点 会 自动 改变 透明 度 ， 以 在 平面 上 呈现 出 立体 感 。 有 时 在 静态 图 形 上 观察 
三 维 效 果 很 费劲 ， 通 过 交互 视图 (interactive view) 就 可 以 让 所 有 数据 点 呈现 出 极 佳 的 视 


4.14.2 ”三维 等 高 线 图 
与 4.6 节 介 绍 的 等 高 线 类 似 ，mplot3d 也 有 用 同样 的 输入 数据 创建 三 维 野 泻 (relief) 图 的 工 


具 。 与 二 维 ax.contour 图 形 一 样 ，ax.contour3D 要 求 所 有 数据 都 是 二 维 网 格 数据 的 形式 ， 并 
且 由 函数 计算 z 轴 数值 。 下 面 演 示 一 个 用 三 维 正 弦 函 数 画 的 三 维 等 高 线 图 (如 图 4-94 所 示 ) : 


















































In[5]: def f(x, y): 
return np.sin(np.sqrt(x xx 2 + y xx 2)) 


x 
y 


np.linspace(-6, 6, 30) 
np.linspace(-6, 6, 30) 


X, Y = np.meshgrid(x, y) 
Z = f(xX, Y) 


In[6]: fig = plt.figure() 
ax = plt.axes(projection='3d') 
ax.contour3D(X, Y, Z, 50, cmap='binary') 
ax.set_xlabel('x') 
ax.set_ylabel('y') 
ax.set_zlabel('z'); 

















图 4-94: 三 维 等 高 线 图 


默认 的 初始 观察 角度 有 时 不 是 最 优 的 ，view_init 可 以 调整 观察 角度 与 方位 角 (azimuthal 
angle)。 在 这 个 示例 中 (结果 如 图 4-95 所 示 )， 我 们 把 俯仰 角 调 整 为 60 度 〈 这 里 的 60 度 
是 x-y 平 面 的 旋转 角度 )， 方 位 角 调整 为 35 度 (就 是 绕 z 轴 顺 时 针 旋转 35 度 ) : 


In[7]: ax.view init(60, 35) 
fig 
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图 4-95: 调整 三 维 图 的 观察 视角 
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其 实 ， 也 可 以 在 Matplotlib 的 交互 式 后 端 界面 直接 通过 点 击 、 拖 搜 图 形 ， 实 现 同样 的 交互 


4.14.3” 线 框图 和 曲面 图 


还 有 两 种 画 网 格 数据 的 三 维 图 没有 介绍 ， 就 是 线 框图 和 曲面 图 。 它 们 都 是 将 网 格 数据 
映射 成 三 维 曲 面 ， 得 到 的 三 维 形状 非常 容易 可 视 化 。 下 面 是 一 个 线 框图 示例 〈 如 医 
4-96 所 示 ) : 
In[8]: fig = plt.figure() 
ax = plt.axes(projection='3d') 


ax.plot wireframe(X, Y, Z, color='black') 
ax.set_ title('wireframe'); 
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4-96: 线 框图 


曲面 图 与 线 框图 类 似 ， 只 不 过 线 框图 的 每 个 面 都 是 由 多 边 形 构成 的 。 只 要 增加 一 个 配 
色 方 案 来 填充 这 些 多 边 形 ， 就 可 以 让 读者 感受 到 可 视 化 图 形 表 面 的 拓扑 结构 了 (如 图 
4-97 所 示 ) : 
In[9]: ax = plt.axes(projection='3d') 
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, 
cmap='viridis', edgecolor='none') 
ax.set_ title('surface'); 
































图 4-97: 三 维 曲 面 图 
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需要 注意 的 是 ， 画 曲面 图 需要 二 维 数据 ,但 可 以 不 是 直角 坐标 系 (也 可 以 用 极 坐标 )。 下 
面 的 示例 创建 了 一 个 局 部 的 极 坐 标 网 格 (polar grid) ， 当 我 们 把 它 画 成 surface3D 图 形 时 ， 
可 以 获得 一 种 使 用 了 切片 的 可 视 化 效果 (如 图 4-98 所 示 ) : 

In[10]: r = np.linspace(0, 6, 20) 


theta = np.linspace(-0.9 * np.pi, 0.8 * np.pi, 40) 
r, theta = np.meshgrid(r, theta) 






































X= r * np.sin(theta) 
Y=r* np.cos(theta) 
Z = f(x, Y) 


ax = plt.axes(projection='3d') 
ax.plot_surface(X, Y, Z, rstride=1, cstride=1, 

















4-98: 极 坐 标 曲面 图 


4.14.4 曲面 三 角 剖 分 


在 某 些 应 用 场景 中 ， 上 述 这 些 要 求 均匀 采样 的 网 格 数据 显得 太 过 严格 且 不 太 容 易 实现 。 这 
时 就 可 以 使 用 三 角 剖 分 图 形 (triangulation-based plot) 了 。 如 果 没 有 笛 卡 尔 或 极 坐 标 网 格 
的 均匀 绘制 图 形 ， 我 们 该 如 何 用 一 组 随机 数据 画图 呢 ? 


In[11]: theta = 2 * np.pi * np.random.random(1000) 






































r= 6 * np.random.random(1000) 
x = np.ravel(r * np.sin(theta)) 
y = np.ravel(r * np.cos(theta)) 
z = f(x, y) 











可 以 先 为 数据 点 创建 一 个 散 点 图 ， 对 将 要 采样 的 图 形 有 一 个 基本 认识 (如 图 4-99 所 示 ) : 


In[12]: ax = plt.axes(projection='3d') 
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图 4-99: 三 维 采样 的 曲面 图 


还 有 许多 地 方 需要 修补 ， 这 些 工 作 可 以 由 ax.plot_trisurf 函数 帮助 我 们 完成 。 它 首先 找 
到 一 组 所 有 点 都 连接 起 来 的 三 角形 ， 然 后 用 这 些 三 角形 创建 曲面 (结果 如 图 4-100 所 示 ， 
其 中 x、y 和 z 参数 都 是 一 维 数组 ) : 

In[13]: ax = plt.axes(projection='3d') 


ax.plot_trisurf(x, y, z, 
cmap='viridis', edgecolor='none'); 












































图 4-100: 三 角 剖 分 曲面 图 


虽然 结果 肯定 没有 之 前 用 均匀 网 格 画 的 图 完美 ， 但 是 这 种 三 角 齐 分 方法 很 灵活 ， 可 以 创建 
各 种 有 趣 的 三 维 图 。 例 如 ， 可 以 用 它 画 一 条 三 维 的 莫 比 乌 斯 带 ， 下 面 就 来 进行 演示 。 


案例 : 莫 比 乌 斯 带 
莫 比 乌 斯 带 是 把 一 根 纸 条 扭转 180 度 后 ， 再 把 两 头 粘 起 来 做 成 的 纸 带 圈 。 从 拓扑 学 的 角度 
看 ， 莫 比 乌 斯 带 非常 神奇 ， 因 为 它 总 共 上 只 有 一 个 面 ! 下 面 我 们 就 用 Matplotlib 的 三 维 工具 
来 画 一 条 莫 比 乌 斯 带 。 此 时 的 关键 是 想 出 它 的 绘图 参数 : 由 于 它 是 一 条 二 维 带 ， 因 此 需要 
两 个 内 在 维度 (intrinsic dimensions)。 让 我 们 把 一 个 维度 定义 为 9， 取 值 范 围 为 0~2x; 另 
一 个 维度 是 w， 取 值 范 围 是 -1~1， 表 示 莫 比 乌 斯 带 的 宽度 : 

In[14]: theta = np.linspace(0, 2 * np.pi, 30) 


w = np.linspace(-0.25, 0.25, 8) 
w, theta = np.meshgrid(w, theta) 










































































有 了 参数 之 后 ， 我 们 必须 确定 带 上 每 个 点 的 直角 坐标 (x, y, z )。 
仔细 思考 一 下 ， 我 们 可 能 会 找到 两 种 旋转 关系 : 一 种 是 圆圈 绕 着 圆心 旋转 (角度 用 0 定 
义 ) ， 另 一 种 是 莫 比 乌 斯 带 在 自己 的 坐标 轴 上 旋转 (角度 用 @ 定义 )。 因 此 ， 对 于 一 条 莫 比 
乌 斯 带 ， 我 们 必然 会 有 环 的 一 半 扭 转 180 度 ,， 即 4 B=4012。 

In[15]: phi = 0.5 * theta 
现在 用 我 们 的 三 角 学 知识 将 极 坐标 转换 成 三 维 直 角 坐 标 。 定 义 每 个 点 到 中 心 的 距离 ( 半 
径 ) r， 那 么 直角 坐标 (x,y,z ) 就 是 : 

In[16]: # x - y 平 面 内 的 半径 


r=1+w* np.cos(phi) 




















np.ravel(r * np.cos(theta)) 
np.ravel(r * np.sin(theta)) 
np.ravel(w * np.sin(phi)) 


x 
y 


2 
最 后 ， 要 画 出 莫 比 乌 斯 带 ， 还 必须 确保 三 角 剖 分 是 正确 的 。 最 好 的 实现 方法 就 是 首先 用 基 
本 参数 化 方法 定义 三 角 剖 分 ， 然 后 用 Matplotlib 将 这 个 三 角 剖 分 映射 到 莫 比 乌 斯 带 的 三 维 
空间 里 ， 这 样 就 可 以 画 出 图 形 (如 图 4-101 所 示 ) : 
In[17]: # 用 基本 参数 化 方法 定义 三 角 剖 分 
from matplotlib.tri import Triangulation 
tri = Triangulation(np.ravel(w), np.ravel(theta)) 








ax = plt.axes(projection='3d') 
ax.plot_ trisurf(x, y, z, triangles=tri.triangles, 

















图 4-101: 莫 比 乌 斯 带 








将 上 面 所 有 的 Matplotlib 函数 组 合 起 来 ， 就 可 以 创建 出 丰富 多 彩 三 维 图 案 了 。 


4.15 ”用 Basemap 可 视 化 地 理 数据 


地 理 数据 可 视 化 是 数据 科学 中 一 种 十 分 常见 的 可 视 化 类 型 。Matplotlib 做 此 类 可 视 化 的 主 
要 工具 是 Basemap 工具 箱 ， 它 是 Matplotlib 的 mpl_toolkits 命名 空间 里 的 众多 工具 箱 之 
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。 坦 白 说 ，Basemap 用 起 来 有 点 笨重 ， 就 算 做 点 儿 简 单 的 可 视 化 图 也 需要 花费 比 预 期 更 
长 的 时 间 。 在 处 理 比 较 复 杂 的 地 图 可 视 化 任务 时 ， 更 现代 的 解决 方案 可 能 会 更 适用 一 些 ， 
比如 leaflet 开发 库 或 Google Maps API。 然 而 ，Basemap 符合 Python 用 户 的 使 用 习惯 。 本 
节 将 演示 一 些 利 用 Basemap 工具 箱 绘制 地 图 的 可 视 化 示例 。 


Basemap 安装 起 来 很 简 简单 。 如 果 你 用 conda 命令 ， 输 入 下 面 的 命令 即 可 ， 程 序 包 会 自动 下 
载 并 安装 : 


$ conda install basemap 
只 需要 在 标准 导入 模板 上 新 增 一 行 即 可 : 


In[1]: %matplotlib inline 
import numpy as np 
import matplotlib.pyplot as plt 
from mpl_toolkits.basemap import Basemap 


安装 并 导入 Basemap 工具 箱 后 ， 只 用 几 行 代码 就 可 以 画 出 地 理 图 形 (要 想 在 Python 2 中 夯 
出 如 图 4-102 中 所 示 的 需要 安 装 PIL 程序 包 ， 而 在 Python 3 中 则 需要 安装 pitlow 程 
序 包 ) : 

In[2]: plt.figure(figsize=(8, 8)) 


m = Basemap(projection='ortho', resolution=None, lat 0=50, lon_0=-100) 
m.bluemarble(scale=0.5); 












































































































































图 4-102: 地 球 的 “ 蓝 色 弹 珠 ” 投 影 照 片 





注 2: 如 果 在 Python 3.6 版 运行 这 条 命令 失效 的 话 ， 就 用 conda-forge: conda install basemap -c conda-forge。 
一 一 译 者 注 














下 面 来 介绍 Basemap 各 个 参数 的 含义 。 


这 里 显示 的 地 球 并 不 是 一 个 静止 的 图 形 。 它 是 一 个 用 球面 坐标 系 构建 的 、 功 能 齐全 的 
Matplotlib 坐标 轴 ， 可 以 很 轻易 地 在 地 图 上 增添 数据 ! 例如 ， 我 们 可 以 将 地 图 投影 放大 到 
北美 洲 ， 然 后 标 出 西雅图 的 位 置 。 用 ETOPO 地 图 (etopo image， 显 示 陆 地 与 海底 的 地 形 
特征 ) 作为 背景 (如 图 4-103 所 示 ) : 


In[3]: fig = plt.figure(figsize=(8, 8)) 
m = Basemap(projection='lcc', resolution=None, 
width=8E6, height=8E6, 
lat_0=45, lon_0=-100,) 
m.etopo(scale=0.5, alpha=0.5) 


# 地 图 上 的 (经 度 ， 纬度) 对 应 图 上 的 (x，y) 华 标 
x, y = m(-122.3, 47.6) 

plt.plot(x, y, 'ok', markersize=5) 
plt.text(x, y, ' Seattle', fontsize=12); 

















图 4-103: 在 地 图 上 添加 标签 


这 个 示例 让 我 们 发 现 ， 只 需要 儿 行 简单 的 Python 代码 就 可 以 画 出 地 理 可 视 化 图 。 下 文 将 深 
入 介绍 Basemap 的 主要 特性 ， 并 通过 一 些 可 视 化 地 图 示例 进行 演示 。 有 了 这 些 示例 作为 基 
础 ， 你 就 可 以 制作 几乎 所 有 你 需要 的 地 图 可 视 化 图 了 。 


4.15.1 地 图 投影 


当 你 想 使 用 地 图 时 ， 首 先 要 做 的 就 是 确定 地 图 的 投影 类 型 。 你 可 能 已 经 知道 ， 像 地 球 这 样 
的 球体 ， 可 以 通过 球面 透视 法 将 三 维 球面 投影 成 一 个 二 维 平面 ， 不 会 造成 变形 ， 也 不 会 破 
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其 连续 性 。 这 些 投影 类 型 随 着 人 类 历史 进程 逐渐 发 展 起 来 ， 现 在 已 经 有 许多 选择 。 根 据 
地 图 投影 类 型 的 不 同 用 途 ， 有 一 些 地 图 特征 (例如 方向 、 面 积 、 距 离 、 形 状 或 其 他 因素 ) 
值得 关注 一 下 。 
Basemap 程序 包 里 面 实现 了 几 十 种 ”投影 类 型 , 所 有 投影 都 有 一 个 简便 格式 码 。 下 耳 
常用 的 投影 类 型 进行 简单 的 演示 。 

首先 定义 一 个 可 以 画 带 经 纬 线 地 图 的 简便 方法 : 


In[4]: from itertools import chain 


演 









































对 一 些 




















def draw_map(m, scale=0.2): 
# 画 地 貌 尝 演 图 


m.shadedrelief(scale=scale) 


























# 用 字典 表示 经 纬度 
Lats = m.drawparallels(np.linspace(-90, 90, 13)) 
Lons = m.drawmeridians(np.linspace(-180, 180, 13)) 





# 字典 的 键 是 plt.Line2D 示 例 

lat_lines = chain(*(tup[1][0] for tup in lats.items())) 
Lon_Lines = chain(*(tup[1][0] for tup in lons.items())) 
all_lines = chain(lat_lines, lon_lines) 


# 用 循环 将 所 有 线 设 置 成 需要 的 样式 
for line in all_lines: 
line.set(linestyle='-', alpha=0.3, color='w') 





1. 圆柱 投影 

圆柱 投影 (cylindrical projection) 是 最 简单 的 地 图 投影 类 型 ， 纬 度 线 与 经 度 线 分 别 映射 

成 水 平 线 与 竖 直 线 。 采 用 这 种 投影 类 型 的 话 ， 赤 道 区 域 的 显示 效果 非常 好 ， 但 是 南北 极 

附近 的 区 域 就 会 严重 变形 。 由 于 纬度 线 的 间距 会 因 圆柱 投影 的 不 同 而 不 同 ， 所 以 就 有 了 

| 我 们 在 图 4-104 中 画 了 一 个 等 距 圆柱 投 
， 不 同 纬度 在 子午 线 方向 的 间距 保持 不 变 。 另 外 两 种 圆柱 投影 是 墨 卡 托 (Mercator， 


| merc' ) 投影 和 圆柱 等 积 (cylindrical equal-area，projection='cea' ) 投影 。 















































In[5]: fig = plt.figure(figsize=(8, 6), edgecolor='w') 
m = Basemap(projection='cyl', resolution=None, 
llcrnrlat=-90, urcrnrlat=90,， 
llcrnrlon=-180, urcrnrlon=180, ) 
draw_map(m) 


Basemap 有 一 些 用 来 设置 左下 角 (tlcrnr) 和 右上 角 (urcrnr) 纬度 (Lat) 和 经 度 (lon) 
的 参数 。 

















注 3: 目前 是 30 种。 一 一 译 者 注 


























图 4-104: 圆柱 等 积 投影 


2. 伪 圆 柱 投影 

伪 圆 柱 投影 (pseudo-cylindrical projection) 的 经 线 不 再 必须 是 紧 直 的 ， 这 样 可 以 使 南北 
极 附 近 的 区 域 更 加 真实 。 摩 尔 威 德 〈(Mollweide，projection='moLL' ) 投影 就 是 这 类 投影 
的 典型 代表 ， 它 所 有 的 经 线 都 是 椭圆 弧 线 ， 如 图 4-105 所 示 。 这 么 做 是 为 了 保留 地 图 原 
貌 虽然 南北 极 附近 的 区 域 还 有 一 些 变形 ， 但 是 通过 一 些 区 域 小 图 可 以 反映 真实 情况 。 
其 他 伪 圆 柱 投影 类 型 有 正 絮 (sinusoidal，projection='sinu') 投影 和 罗 宾 森 (Robinson， 
projection='robin') 投影 。 











In[6]: fig = plt.figure(figsize=(8, 6), edgecolor='w') 
m = Basemap(projection='moll', resolution=None, 
lat_0=0, lon_0=0) 
draw_map(m) 

















图 4-105: 摩尔 威 德 投影 

Basemap 提供 了 两 个 额外 参数 ， 用 来 表示 地 图 中 心 的 纬度 (Lat_0) 和 经 度 (lon_0)。 

3. 透视 投影 

透视 投影 (perspective projection) 是 从 某 一 个 透视 点 对 地 球 进行 透视 获得 的 投影 ， 就 好 像 
你 站 在 太空 中 某 一 点 给 地 球 照相 一 样 (通过 技术 处 理 ， 有 些 投影 类 型 的 透视 点 可 以 放 在 地 
球 上 )。 一 个 典型 示例 是 正 射 (orthographic，projection='ortho' ) 投影 ， 从 无 限 远 处 观 
察 地 球 的 一 侧 。 因 此， 这 种 投影 一 次 只 能 显示 半 个 地 球 。 其 他 的 透视 投影 类 型 还 有 球 心 
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(gnomonic，projection='gnom') 投影 和 球 极 平面 (stereographic，projection='stere ' ) 
迷 影 。 这 些 投影 经 常用 于 显示 地 图 的 较 小 面积 区 域 。 


下 面 是 一 个 正 射 投影 示例 (如 图 4-106 所 示 ) : 


In[7]: fig = plt.figure(figsize=(8, 8)) 
m = Basemap(projection='ortho' , resolution=None, 
lat_0=50, lon_0=0) 
draw_map(m); 

















图 4-106; 正 射 投影 


4. 圆锥 投影 

圆锥 投影 (conic projection) 是 先 将 地 图 投影 成 一 个 圆锥 体 ， 然 后 再 将 其 展开 。 这 样 做 虽 
然 可 以 获得 非常 好 的 局 部 效果 ， 但 是 远离 圆锥 顶点 的 区 域 可 能 会 严重 变形 。 一 个 典型 示例 
就 是 兰 勃 特等 角 圆 锥 投影 (Lambert conformal conic projection，projection='Lcc' ) ， 也 就 
是 我 们 之 前 见 到 的 北美 洲 地 图 。 这 种 方法 将 地 图 投影 成 一 个 由 两 条 标准 纬 线 (用 Basemap 
里 的 Lat_1 与 Lat_2 参数 设置 ) 构成 的 圆锥 ， 这 两 条 纬 线 距 离 是 经 过 精心 挑选 的 ， 在 两 条 
标准 纬 线 之 内 比例 尺 逐 渐 减 小 ， 在 两 线 之 外 的 比例 尺 逐 渐 增 大 。 其 他 常用 的 圆锥 投影 还 有 
等 距 圆锥 (equidistant conic，projection='eqdc' ) 投影 和 阿尔 伯 斯 等 积 圆锥 (Albers equal- 
area，projection='aea') 投影 ， 如 图 4-107 所 示 。 圆 锥 投影 和 透视 投影 一 样 ， 适 合 显示 较 
小 与 中 等 区 域 的 地 图 。 

In[8]: fig = plt.figure(figsize=(8, 8)) 
m = Basemap(projection='lcc', resolution=None, 


lon_0=0, lat 0=50, lat_1=45, lat_2=55, 
width=1.6E7, height=1.2E7) 





draw_map(m) 




















图 4-107: 阿尔 伯 斯 等 积 圆锥 投影 


5. 其 他 投影 类 型 

如 果 你 还 需要 做 更 多 的 地 图 可 视 化 ， 那 么 我 推荐 你 学 习 其 他 投影 类 型 的 知识 ， 掌 握 它 
们 的 属性 、 优 点 和 不 足 。 你 可 以 在 Basemap 程序 包 (http://matplotlib.org/basemap/users/ 
mapsetup.html) 文档 里 找到 它们 。 如 果 你 深入 研究 这 方面 的 内 容 ， 肯 定 会 发 现 一 种 让 人 难 
以 置信 的 地 理 可 视 化 极 客 亚 文化 ， 这 些 极 客 会 疯狂 地 将 自己 喜爱 的 投影 类 型 推送 给 所 有 的 
地 图 应 用 ! 


4.15.2 男 一 个 地 图 背景 


前 面 介绍 过 ， 用 bluemarble() 和 shadedrelief() 方法 可 以 画 出 地 球 投影 ， 用 drawparallels() 
和 drawmeridians() 方法 可 以 画 出 纬 线 与 经 线 。Basemap 程序 包 中 有 许多 实用 的 函数 ， 可 
以 画 出 各 种 地 形 的 轮 廊 ， 如 陆地 、 海 洋 、 湖 泊 、 河 流 、 各 国 的 政治 分 界线 ， 其 至 于 美国 各 
州 县 的 边界 线 。 下 面 列举 了 一 些 画 图 函数 ， 你 可 以 通过 IPython 的 帮助 功能 查看 它们 的 具 
体 用 法 。 
。 物理 边界 与 水 体 
drawcoastlines() 

绘制 大 陆 海 岸 线 
drawlsmask() 

为 陆地 与 海洋 设置 填充 色 ， 从 而 可 以 在 陆地 或 海洋 投影 其 他 图 像 
drawmapboundary() 

绘制 地 图 边界 ， 包 括 为 海洋 填充 颜色 
drawrivers() 


绘制 河流 
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fillcontinents() 





用 一 种 颜色 填充 大 陆 ， 用 另 一 种 颜色 填充 湖泊 (可 选 ) 


。 政治 边界 
drawcountries() 
绘制 国界 线 


drawstates() 
给 


绘制 美国 州 界线 
drawcounties() 

绘制 美国 县 界线 
。 地 图 功能 
drawgreatcircle() 
在 两 点 之 间 绘 制 一 个 大 圆 
drawparallels() 

绘制 纬 线 
drawmeridians() 

绘制 经 线 
drawmapscale() 
在 地 图 上 绘制 一 个 线性 比例 尺 
。 地 球 影像 
























































bluemarble() 

绘制 NASA 蓝 色 弹 珠 地 球 投影 
shadedrelief() 

在 地 图 上 绘制 地 貌 旱 泻 
etopo() 

在 地 图 上 绘制 地 形 举 演 图 
warpimage() 


将 用 户 提供 的 图 像 投 影 到 地 图 上 
如 果 要 使 用 边界 特征 ， 就 必须 在 创建 Basemap 图 

















resolution 参数 来 设置 边界 的 分 辩 率 ， 可 用 值 分 别 是 'c' (原始 分 辩 率 )、'L 


形 时 设置 分 辨 率 。Basen 




















ap 类 提供 了 
( 低 分 辨 


率 )、'i' (中 等 分 辩 率 )、'h， (高 分 辨 率 )、'f' (全 夯 质 分 辨 率 )， 如 果 不 使 用 边界 线 则 用 
None。 这 个 参数 的 设置 非常 重要 : 如 果 为 世界 地 图 的 边界 线 设 置 了 高 分 辨 率 ， 那 么 图 形 演 




















染 会 很 慢 。 












































看 是 一 个 绘制 海岸 线 的 示例 ， 来 看 看 两 种 不 同 分 辩 率 的 绘制 效果 。 我 们 为 苏格兰 美丽 的 天 


57.3 度 ， 西 





下 
空 岛 (Isle of Skye) 创建 了 一 张 低 分 辩 率 地 图 和 一 张 高 分 辨 率 地 图 。 它 位 于 北 红 
经 


6.2 度 ， 用 一 张 90 000 公里 x 120 000 公里 的 地 图 可 以 画 出 来 (如 图 4-108 所 示 ) : 
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In[9]: fig, ax = plt.subplots(1, 2, figsize=(12, 8)) 


for i, res in enumerate(['l', 'h']): 
m = Basemap(projection='gnom', lat_0=57.3, lon_0=-6.2, 
width=90000，height=120000，resoLution=res，ax=ax[i]) 
m.fillcontinents(color="#FFDDCC", lake_color="'#DDEEFF') 
m.drawmapboundary(fill_color="#DDEEFF") 
m.drawcoastlines() 
ax[i].set title("resolution='{0}'".format(res)); 





resolution= 小 resolution="h' 
a 

















图 4-108: 高 、 低 分 辨 素 地 图 效果 对 比 


你 会 发 现 ， 低 分 辩 率 的 海岸 线 不 适合 这 个 缩放 尺度 ， 而 高 分 辨 率 的 效果 还 不 错 。 低 分 辩 率 
适合 呈现 全 局 视角 ， 而 且 加 载 整 幅 图 的 速度 要 比 高 分 辩 率 的 边界 数据 快 很 多 。 要 呈现 某 一 
视角 的 时 候 ， 可 能 得 多 尝试 几 次 才能 找到 最 合适 的 分 状 率 一 一 最 好 先 从 一 个 能 快速 呈现 的 
分 辩 率 开始 ， 然 后 不 断 提 高 分 辨 率直 到 满意 为 止 。 


4.15.3 ”在 地 图 上 男 数 据 

Basemap 工具 箱 最 实用 的 功能 可 能 就 是 以 地 图 为 背景 画 上 各 种 数据 。 使 用 任意 plt 函数 就 
可 以 在 地 图 上 画 出 简单 的 图 形 与 文字 ;你 可 以 用 Basemap 实例 将 纬度 与 经 度 坐 标 投影 为 直 
角 坐 标 系 (x，y) ， 就 像 前 面 在 西雅图 地 图 示例 中 介绍 的 那样 。 

除 此 之 外 ，Basemap 实例 中 的 许多 方法 都 是 与 地 图 有 关 的 函数 。 这 些 函 数 与 标准 Matplotlib 
函数 的 用 法 类 似 ， 只 是 都 多 了 一 个 布尔 参数 Latlon。 如 果 将 它 设 置 为 True， 就 表示 使 用 原 
来 的 经 度 纬度 坐标 ， 而 不 是 投影 为 (x，y) 坐标 。 

部 分 与 地 图 有 关 的 方法 如 下 所 示 。 
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Contour() /contourf() 
绘制 等 高 线 / 填充 等 高 线 


imshow() 


绘制 一 个 图 像 














pcolor() /pcolormesh() 
绘制 带 规则 /不 规则 网 格 的 伪 彩 图 (pseudocolor plot) 
plot() 
绘制 线条 和 /或 标签 
scatter() 
绘制 带 标 签 的 点 


quiver() 


绘制 入 




















barbs() 
绘制 风纪 (wind barb) 


drawgreatcircle() 


绘制 大 风 














下 面 用 一 些 示 例 来 演示 。 关 于 这 些 函 数 的 更 多 信息 ， 包 括 一 些 示例 ， 都 可 以 参 萎 Basemap 


在 线 文档 (http://matplotlib.org/basemap/)。 


4.15.4 案例 : 美国 加 州 城市 数据 


我 们 在 4.8 节 曾 经 演示 过 在 散 点 图 中 通过 散 点 大 小 与 颜色 的 变化 展示 美国 























首先 ， 像 之 前 那样 加 载 数据 ; 


In[10]: import pandas as pd 
cities = pd.read_csv('data/california cities.csv') 





# 提取 需要 的 数据 
lat = cities['latd'].values 

Lon = cities['longd'].values 

population = cities['population_ total'].values 
area = cities['area_ total_km2'].values 


然后 ， 建 立地 图 投影 ， 绘 制 数 据 散 点 ， 并 创建 颜色 条 与 图 例 (如 图 4-109 


In[11]: # 1. 绘 制 地 图 背景 

fig = plt.figure(figsize=(8, 8)) 

m = Basemap(projection='lcc', resolution='h', 
lat_0=37.5, lon 0=-119, 
width=1E6, height=1.2E6) 

m.shadedrelief() 

m.drawcoastlines(color='gray') 








| 




















加 州 的 城 





面积 和 人 口 。 接 下 来 再 次 使 用 这 幅 图 ， 只 不 过 这 次 是 在 Basemap 上 实现 这 些 内 容 。 


所 示 ) : 


位 置 、 





m.drawcountries(color='gray') 
m.drawstates(color='gray') 


# 2. 绘 制 城市 数据 散 点 ， 用 颜色 表示 人 口 数 据 

# and size reflecting area 

m.scatter(lon, lat, latlon=True, 
c=np.Log10(popuLation)，s=area， 
cmap='Reds', alpha=0.5) 


# 3. 创 建 颜色 条 与 图 例 
plt.colorbar(label=r'$\log_{10}({\rm population})$') 
plt.clim(3, 7) 








# 用 虚拟 点 绘制 图 例 
for a in [100, 300, 500]: 
plt.scatter([], [], c='k', alpha=0.5, s=a, 
label=str(a) + ' km$^2$') 
plt. legend(scatterpoints=1, frameon=False, 
labelspacing=1, loc='lower left'); 





bbg nlpopulation) 














图 4-109: 在 地 图 上 绘制 散 点 图 
这 幅 图 基本 呈现 出 了 美国 加 州 的 人 口 密 集 区 域 为 洛杉矶 、 旧 人 金山 等 沿海 地 区 ， 沿 着 平坦 的 
中 央 谷 地 (central valley) 的 高 速 公路 延伸 ， 几 乎 完全 避 开 了 沿 州 边界 的 山区 。 


4.15.5 案例: 地 表 温 度数 据 


下 面 再 来 演示 一 个 数据 更 具有 连续 性 的 地 理 数据 可 视 化 一 一 2014 年 1 月 “极地 涡 旋 ” 
(polar vortex) 袭击 美国 东部 的 案例 。 完 整 的 历史 气候 数据 可 以 在 美国 宇航 局 区 达 德 太空 研 
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究 所 (http://data.giss.nasa.gov/，NASA’s Goddard Institute for Space Studies) 的 网 站 找到 。 
我 们 将 使 用 GIS 250 气温 数据 ， 可 以 通过 shell 命令 行 下 载 (在 Windows 上 需要 修改 该 命 
令 )“。 下 面 的 数据 是 在 2016 年 12 月 6 日 下 载 的， 文件 大 小 为 9MB 左右 : 


In[12]: # !curl -0 http://data.giss.nasa.gov/pub/gistemp/gistemp250.nc.gz 
# !gunzip gistemp250.nc.gz 


数据 是 NetCDF 格式 ， 可 以 用 Python 的 netCDF4 程序 库 读 取 。 安 装 命令 如 下 所 示 : 


$ conda install netcdf4 


先 读 取 数据 : 


In[13]: from netCDF4 import Dataset 
data = Dataset('gistemp250.nc') 


文件 里 包含 了 大 量 全 球 气温 数据 ， 我 们 只 需要 选择 2014 年 1 月 15 日 的 数据 : 


In[14]: from netCDF4 import date2index 
from datetime import datetime 
timeindex = date2index(datetime(2014, 1, 15), 
data.variables[ 'time']) 


然后 ， 加 载 经 度 与 纬度 数据 ， 并 将 气温 也 提取 出 来 : 


In[15]: Lat = data.variables['lat'][:] 
Lon = data.variables['lon'][:] 
lon, lat = np.meshgrid(lon, lat) 
temp_anomaly = data.variables['tempanomaly'][timeindex] 


最 后 ， 用 pcolormesh() 方法 绘制 数据 的 彩色 网 格 。 我 们 主要 关注 北美 地 区 ， 用 地 貌 旱 演 
图 作为 背景 。 请 注意 ， 这 里 特地 选用 了 发 散 (divergent) 颜色 条 ， 有 一 个 中 间 颜 色 表示 0， 
两 边 的 颜色 分 别 表示 负数 值 与 正 数值 (如 图 4-110 所 示 )。 我 们 还 在 图 中 浅 浅 地 绘制 了 海岸 
线 作 为 参照 ， 


In[16]: fig = plt.figure(figsize=(10, 8)) 
m = Basemap(projection=’ lcc’” , resolution=” c’” ， 
width=8E6, height=8E6, 
lat_0=45, lon_0=-100,) 
m.shadedrelief(scale=0.5) 
m.pcolormesh(lon, lat, temp_anomaly, 
latlon=True, cmap=” RdBu_r” ) 
plt.clim(-8, 8) 
m.drawcoastlines(color=’” lightgray” ) 





























plt.title( “January 2014 Temperature Anomaly” ) 
plt.colorbar(label=”temperature anomaly ( 度 C)”); 


图 中 数据 显示 了 局 部 地 区 在 该 月 出 现 的 极端 天 气 情况 。 美 国 东 部 比 正常 情况 冷 很 多 ， 而 西 
部 和 阿拉 斯 加 州 比 正常 情况 热 很 多 。 没 有 显示 温度 的 区 域 是 地 图 背景 。 























注 4: 在 Windows 系统 上 无 法 直接 使 用 下 载 命令 ， 建 议 安装 Git for Windows (https:/git-scm.com/download/ 
win) 使 用 curl 命令 。 一 一 译 者 注 
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图 4-110: 2014 年 1 月 的 极端 天 气 


4.16 ”用 Seaborn 做 数据 可 视 化 


虽然 Matplotlib 已 经 证 明了 自己 绝对 是 一 款 超级 实用 且 流 行 的 数据 可 视 化 工具 ， 但 是 即 
使 骨灰 粉 也 不 得 不 承认 它 不 支持 的 功能 还 有 很 多 。Matplotlib 的 三 条 主要 “罪状 ”总 结 
如 下 。 





Matplotlib 2.0 之 前 版 本 的 默认 配置 样式 绝对 不 是 用 户 的 最 佳 选择 。 之 前 的 默认 样式 还 是 
仿照 1999 年 前 后 的 MATLAB ， 却 一 直 在 使 用 。 

Matplotlib 的 API 比较 底层 。 虽 然 可 以 实现 复杂 的 统计 数据 可 视 化 ， 但 是 通常 都 需要 写 
大 量 的 样板 代码 (boilerplate code)。 

由 于 Matplotlib 比 Pandas 早 十 几 年 ， 因 此 它 并 不 是 为 Pandas 的 DataFrame 设计 的 。 为 
了 实现 Pandas 的 DataFrame 数据 的 可 视 化 ， 你 必须 先 提取 每 个 Series， 然 后 通常 还 需 
要 将 它们 合并 成 适当 的 格式 。 如 果 有 一 个 画图 程序 库 可 以 智能 地 使 用 DataFrame 的 标签 
画图 ， 那 一 定 会 很 棒 。 








这 些 问 题 的 终结 者 就 是 Seaborn (http://seaborn.pydata.org)。Seaborn 在 Matplotlib 的 基础 上 
开发 了 一 套 API， 为 默认 的 图 形 样 式 和 颜色 设置 提供 了 理智 的 选择 ， 为 常用 的 统计 图 形 定 
义 了 许多 简单 的 高 级 函数 ， 并 与 Pandas DataFrame 的 功能 有 机 结合 。 


说 实话 ，Matplotlib 团队 也 一 直 在 努力 解决 这 些 问 题 : 现在 Matplotlib 中 不 仅 增加 了 plt. 
style 工具 (详情 请 参见 4.13 节 )， 而 且 与 Pandas 数据 也 可 以 无 颖 衔接 。Matplotlib 2.0 版 
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已 经 带 有 对 之 前 样式 优化 过 的 样式 表 。 但 是 即使 Matplotlib 已 经 有 了 这 些 进步 ，Seaborn 仍 
然 是 一 款 非 常 好 用 的 附加 组 件 。 


4.16.1 Seaborn 与 Matplotlib 


下 面 用 Matplotlib 的 经 典 图 形 样 式 和 配色 方案 画 一 个 简易 的 随机 游 走 (random-walk) 图 。 
首先 ， 导 入 稼 用 工具 ; 


In[1]: import matplotlib.pyplot as plt 
plt.style.use('classic') 
%matplotlib inline 
import numpy as np 
import pandas as pd 


创建 一 些 随机 游 走 数据 : 
In[2]: # 创建 一 些 数 据 


rng = np.random.RandomState(0) 
x = np.linspace(0, 10, 500) 
y = np.cumsum(rng.randn(500, 6), 0) 


然后 画 一 个 简易 图 形 (如 图 4-111 所 示 ) : 
In[3]: # 用 MatpLotLib 默 认 样 式 画 攻 


plt.plot(x, y) 
plt.legend('ABCDEF', ncol=2, loc='upper left'); 





1 
























































图 4-111: Matplotlib 的 默认 样式 图 形 




















尽管 最 终 图 形 包 含 了 我 们 想 要 表达 的 所 有 信息 ， 但 是 其 艺术 效果 并 不 让 人 满意 ， 用 21 世 
纪 的 数据 可 视 化 审美 眼光 来 看 甚至 有 些 过 时 。 

现在 尝试 用 Seaborn 来 实现 。 我 们 会 发 现 ，Seaborn 不 仅 有 许多 高 级 的 画图 功能 ， 而 且 可 
以 改写 Matplotlib 的 默认 参数 ， 从 而 用 简单 的 Matplotlib 脚本 获得 更 好 的 效果 。 可 以 用 
Seaborn 的 set() 方法 设置 样式 。 为 简便 起 见 ， 将 Seaborn 导入 简 记 为 sns: 


In[4]: import seaborn as sns 
sns.set() 



































现在 ， 重 新 运行 之 前 的 两 行 画图 代码 (如 图 4-112 所 示 ) : 


In[5]: # 同样 的 画图 代码 ! 
plt.plot(x, y) 
plt.legend('ABCDEF', ncol=2, loc='upper left'); 























图 4-112: Seaborn 的 默认 样式 图 形 
效果 确实 更 好 ! 


4.16.2 Seaborn 图 形 介 绍 

Seaborn 的 主要 思想 是 用 高 级 命令 为 统计 数据 探索 和 统计 模型 拟 合 创建 各 种 图 形 。 

下 面 将 介绍 一 些 Seaborn 中 的 数据 集 和 图 形 类 型 。 虽 然 所 有 这 些 图 形 都 可 以 用 Matplotlib 
命令 实现 (其实 Matplotlib 就 是 Seaborn 的 底层 ) ， 但 是 用 Seaborn API 会 更 方便 。 

1. 频次 直方 图 、KDE 和 密度 图 

在 进行 统计 数据 可 视 化 时 ， 我 们 通常 想 要 的 就 是 频次 直方 图 和 多 变量 的 联合 分 布 
Matplotlib 里 面 我 们 已 经 见 过 ， 相 对 比较 简单 (如 图 4-113 所 示 ) ， 


np.random.multivariate normal([0, 0], [[5, 2], [2, 2]], size=2000) 
pd.DataFrame(data, columns=['x', 'y']) 














加 








.在 














In[6]: data = 
data = 

for col in 'xy': 
plt.hist(data[col], normed=True, alpha=0.5) 
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0.25 


020 














图 4-113: 频次 直方 图 可 视 化 分 布 特性 
除了 频次 直方 图 我们 还 可 以 用 KDE 获取 变量 分 布 的 平滑 估计 。Seaborn 通过 sns 
kdeplot 实现 (如 图 4-114 所 示 ) : 


In[7]> for eol dn xy!: 
sns.kdeplot(data[col], shade=True) 




















图 4-114:， KDE 可 视 化 分 布 特性 


用 distplot 可 以 让 频次 直方 图 与 KDE 结合 起 来 (如 图 4-115 所 示 ) : 


In[8]: sns.distplot(data['x']) 
sns.distplot(data['y']); 











0.05 











图 4-115: 频次 直方 图 与 KDE 的 结合 


如 果 向 kdeplot 输入 的 是 二 维 数据 集 ， 那 么 就 可 以 获得 一 个 二 维 数据 可 视 化 图 (如 图 4-116 
所 示 ) : 
In[9]: sns.kdeplot(data); 




















图 4-116: 二 维 KDE 图 








用 sns.jointplot 可 以 同时 看 到 两 个 变量 的 联合 分 布 与 单 变量 的 独立 分 布 。 在 这 个 图 形 中 ， 
使 用 白色 背景 (如 图 4-117 所 示 ) : 


In[10]: with sns.axes_style('white'): 
sns.jointplot("x", "y", data, kind='kde'); 
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图 灵 社 区 会 员 ChenyangGao(2339083510@qq.com) 专 享 尊重 版 权 





pearsonr = 0.63; p = 2.9e-225 


-2 














图 4-117: 二 维 KDE 的 联合 分 布 图 
可 以 向 jointplot 函数 传递 一 些 参 数 。 例 如 ， 可 以 用 六 边 形 块 代替 频次 直方 图 (如 图 4-118 
所 示 ) : 


In[11]: with sns.axes_styLe('white' ) : 
sns.jointplot("x", "y", data, kind='hex') 














pearsonr= 0.63; p = 2.9e-225 


时 

















2. 和 矩阵 图 

当 你 需要 对 多 维 数据 集 进 行 可 视 化 时 ， 最 终 都 要 使 用 短 阵 图 (pair plob。 如 果 想 画册 所 有 
变量 中 任意 两 个 变量 之 间 的 图 形 ， 用 矩阵 图 探索 多 维 数据 不 同 维度 间 的 相关 性 非常 有 效 。 

下 面 将 用 著名 的 瘟 尾 花 数 据 集 来 演示 ， 其 中 有 三 种 这 尾 花 的 花 辩 与 花 坦 数据 ， 


In[12]: iris = sns.load dataset("iris") 








iris.head() 

Out[12]: sepal_length sepal width petal_length petal width species 
0 5 3%5 1.4 0.2 setosa 
1 4.9 3.0 1.4 0.2 setosa 
2 4.7 3 也 1.3 0.2 setosa 
3 4.6 3 1a5 0.2 setosa 
4 5.0 3.6 1.4 0.2 setosa 


可 视 化 样本 中 多 个 维度 的 关系 非常 简单 ， 直 接 用 sns .pairplot 即 可 (如 图 4-119 所 示 ) : 


In[13]: sns.pairplot(iris, hue='species', size=2.5); 
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图 4-119: 四 个 变量 的 和 矩阵 图 
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3. 分 面 频 次 直方 图 
有 时 观察 数据 最 好 的 方法 就 是 借助 数据 子 集 的 频次 直方 图 。Seaborn 的 FacetGrid 函数 “让 
这 件 事变 得 非常 简单 。 来 看 看 某 个 餐厅 统计 的 服务 员 收 取 小 费 的 数据 〈 如 图 4-120 所 示 ) : 


In[14]: tips = sns.load dataset('tips') 
tips.head() 




















Out[14]: total_bill tip sex smoker day time size 
0 16.99 1.01 Female No Sun Dinner 2 
1 10.34 1.66 Male No Sun Dinner 3 
2 21,01. 3250 Male No Sun Dinner 3 
3 23.68 3.31 Male No Sun Dinner 2 
4 24.59 3.61 Female No Sun Dinner 4 


In[15]: tips['tip pct'] = 100 * tips['tip'] / tips['total_bill'] 


grid = sns.FacetGrid(tips, row="sex", col="time", margin titles=True) 
grid.map(plt.hist, "tip_pct", bins=np.linspace(0, 40, 15)); 
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4-120: 分 面 频次 直方 图 


4. 因子 图 
因子 图 (factor plot) 也 是 对 数据 子 集 进行 可 视 化 的 方法 。 你 可 以 通过 它 观察 一 个 参数 在 另 
一 个 参数 间隔 中 的 分 布 情况 (如 图 4-121 所 示 ) : 

In[16]: with sns.axes_style(style='ticks'): 


g = sns.factorplot("day", "total_bill", "sex", data=tips, kind="box") 
g.set axis_ labels("Day", "Total Bill"); 























注 5: 即 分 面 频次 直方 图 ，faceted histogram。 一 一 译 者 注 
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图 4-121: 因子 图 中 不 同 离散 因子 的 分 布 对 比 


5. 联合 分 布 
与 前 面 介绍 的 和 矩阵 图 类 似 ， 可 以 用 sns.jointplot 画 出 不 同 数据 集 的 联合 分 布 和 各 数据 本 
身 的 分 布 (如 图 4-122 所 示 ) : 


In[17]: with sns.axes_style('white'): 
sns.jointpLot("totaL_biLL"，"titip"，data=ttps，kind='hex') 








pearsonr = 0.68; p = 6.7e-34 


tp 














30 
total_bill 





图 4-122: 联合 分 布 图 








联合 分 布 图 也 可 以 自动 进行 KDE 和 回归 (如 图 4-123 所 示 ) : 


In[18]: sns.jointplot("total_bill", "tip", data=tips, kind='reg'); 
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4-123: 带 回归 拟 合 的 联合 分 布 


6. 条 形 图 
时 间 序 列 数据 可 以 用 sns.factorplot 画 出 条 
示 )， 我 们 将 用 3.9 节 中 的 行星 数据 来 演示 : 
In[19]: planets = sns.Load_dataset('pLanets ' ) 
planets.head() 








或 





图 。 在 下 面 的 示例 中 (结果 如 图 4-124 所 











Out[19]: method number orbitalL_period mass distance year 
0 Radial Velocity 1 269.300 7.10 77.40 2006 
1 Radial Velocity 1 874.774 2.21 56.95 2008 
2 Radial Velocity 1 763.000 2.60 19.84 2011 
3 Radial Velocity 1 326.030 19.40 110.62 2007 
4 Radial Velocity 1 516.220 10.50 119.47 2009 


In[20]: with sns.axes_style('white'): 
g = sns.factorplot("year", data=planets, aspect=2, 
kind="count", color='steelblue') 
g.set_ xticklabels(step=5) 


我 们 还 可 以 对 比 用 不 同方 法 (method 参数 ) 发 现行 星 的 数量 ， 如 图 4-125 所 示 : 


In[21]: with sns.axes_style('white'): 
g = sns.factorplot("year", data=planets, aspect=4.0, kind='count', 
hue='method', order=range(2001, 2015)) 
g.set_yLabeLs('Number of Planets Discovered') 
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图 4-124: 频次 直方 图 是 因子 图 的 特殊 形式 
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图 4-125: 不 同年 份 、 方 法 发 现行 星 的 数量 请 到 在 线 附录 查看 完整 图 ) 














关于 用 Seaborn 画图 的 更 多 信息 ， 请 参考 Seaborn 文档 (http://seaborn.pydata.org)、 教 
程 (http://stanford.edu/~mwaskom/software/seaborn/tutorial.html) 和 Seaborn 画廊 (http:// 
stanford.edu/~mwaskom/ Software/seaborn/examples/index.html) 人 


4.16.3 案例: 探索 马拉松 比赛 成 绩 数据 


下 面 将 用 Seaborn 对 一 场 马拉松 比赛 的 成 绩 进行 可 视 化 。 首 先 从 数据 源 网 站 上 抓 取 数 据 ， 
然后 把 数据 进行 汇总 并 去 掉 敏 感 信息 ， 最 后 放 在 GitHub 上 供 读者 下 载 (如 果 你 对 Python 
网 络 谎 虫 感 兴趣 , 推荐 阅读 Ryan Mitchell 的 《Python 网 络 数据 采集 》")。 下 面 从 GitHub 网 
站 下 载 数据 ， 并 加 载 到 Pandas 中 : 

In[22]: 


# !curl -0 https://raw.githubusercontent.com/jakevdp/marathon-data/ 
# master/marathon-data.csv 














In[23]: data = pd.read_csv('marathon-data.csv') 
data.head() 


Out[23]: age gender split final 
0. 33 M 01:05:38 02:08:51 





注 6: 已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com.cn/book/1709。 一 一 编者 注 
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1 32 M 01:06:26 02:09:28 
2 31 M 01:06:49 02:10:42 
3 38 M 01:06:16 02:13:45 
4 31 M 01:06:32 02:13:59 


默认 情况 下 ，Pandas 会 把 时 间 列 加 载 为 Python 字符 串 格 式 〈 类 型 是 object)。 可 以 用 
DataFrame 的 dtypes 属性 查看 类 型 


In[24]: data.dtypes 





Out[24]: age int64 
gender object 
split object 
final object 


dtype: object 


写 一 个 把 字符 串 转 换 成 时 间 类 型 的 函数 : 


In[25]: def convert_time(s): 
h, m, s = map(int, s.split(':')) 
return pd.datetools.timedelta(hours=h, minutes=m, seconds=s) 


data = pd.read_csv('marathon-data.csv', 
converters={'split':convert time, 'final':convert time}) 
data.head() 


Out[25]: age gender split final 
0 33 M 01:05:38 02:08:51 
1 32 M 01:06:26 02:09:28 
2 31 M 01:06:49 02:10:42 
3 38 M 01:06:16 02:13:45 
4 31 M 01:06:32 02:13:59 


In[26]: data.dtypes 


Out[26]: age int64 
gender object 
split timedelta64[ns] 
final timedelta64[ns] 


dtype: object 


这 样 看 着 好 多 了 。 为 了 能 使 用 Seaborn 画图 ， 还 需要 添加 一 列 ， 将 时 间 换 算 成 秒 : 


In[27]: data['split sec'] = data['split'].astype(int) / 1E9 
data[ 'final_sec'] = data[ 'final'].astype(int) / 1E9 
data.head() 








Out[27]: age gender split final split sec final_sec 
0 33 M 01:05:38 02:08:51 3938.0 7731.0 
1 32 M 01:06:26 02:09:28 3986.0 7768.0 
2 31 M 01:06:49 02:10:42 4009.0 7842.0 
3 38 M 01:06:16 02:13:45 3976.0 8025.0 
4 31 M 01:06:32 02:13:59 3992.0 8039.0 








现在 可 以 通过 jointplot 函数 画图 ， 从 而 对 数据 有 个 认识 (如 图 4-126 所 示 ) : 
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In[28]: with sns.axes_style('white'): 
g = sns.jointplot("split sec", "final_sec", data, kind='hex') 
g.ax_joint.plot(np.linspace(4000, 16000), 
np.linspace(8000, 32000), ':k') 
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图 4-126: 马拉松 前 半 程 成 绩 与 全 程 成 绩 的 对 比 


图 中 的 实 点 线 表示 一 个 人 全 程 保 持 一 个 速度 跑 完 马拉松 ， 即 上 半 程 与 下 半 程 耗 时 相同 。 然 

而 实际 的 成 绩 分 布 表 明 ， 绝 大 多 数 人 都 是 越 往 后 跑 得 越 慢 (也 符合 常理 )。 如 果 你 参加 过 

跑步 比赛 ， 那 么 就 一 定 知道 有 些 人 在 比赛 的 后 半 程 速度 更 快 一 一 也 就 是 在 比赛 中 “后 半 程 

加 速 ”。 

创建 一 列 (split_frac，split fraction) 来 表示 前 后 半 程 的 差异 ， 衡 量 比赛 选手 后 半 程 加 速 

或 前 半 程 加 速 的 程度 : 

In[29]: data['split frac'] =1 -2* data['spLit sec'] / data['finaL sec'] 
data.head() 


























Out[29]: age gender split final split sec final_ sec split frac 
0 33 M 01:05:38 02:08:51 3938.0 7731.0 -0.018756 
1 32 M 01:06:26 02:09:28 3986.0 7768.0 -0.026262 
2 31 M 01:06:49 02:10:42 4009.0 7842.0 -0.022443 
3 38 M 01:06:16 02:13:45 3976.0 8025.0 0.009097 
4 31 M 01:06:32 02:13:59 3992.0 8039.0 0.006842 





如 果 前 后 半 程 差异 系数 (split difference) 小 于 0， 就 表示 这 个 人 是 后 半 程 加 速 型 选手 。 让 
我 们 画 出 差异 系数 的 分 布 图 (如 图 4-127 所 示 ) : 


In[30]: sns.distplot(data['split_ frac'], kde=False); 
plt.axvline(0, color="k", linestyle="--"); 
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图 4-127: 前 后 半 程 差异 系数 分 布 图 ，0 表示 前 后 半 程 耗 时 相同 
In[31]: sum(data.split_frac < 0) 
Out[31]: 251 
在 大 约 4 万 名 马拉松 比赛 选手 中 ， 只 有 250 个 人 能 做 到 后 半 程 加 速 。 


再 来 看 看 前 后 半 程 差异 系数 与 其 他 变量 有 没有 相关 性 。 用 一 个 矩阵 图 pairgrid 画 出 所 有 变 
量 间 的 相关 性 (如 图 4-128 所 示 ) : 
In[32]: 
g = sns.PairGrid(data, vars=['age', 'split sec', 'final_sec', 'split frac'], 
hue='gender', palette='RdBu_r') 


g.map(plt.scatter, alpha=0.8) 
g.add_legend(); 


从 图 中 可 以 看 出 ， 虽 然 前 后 半 程 差异 系数 与 年 龄 没有 显著 的 相关 性 ， 但 是 与 比赛 的 最 终 成 
绩 有 显著 的 相关 性 : 全 程 耗 时 最 短 的 选手 ， 往 往 都 是 在 前 后 半 程 尽量 保持 节奏 一 致 、 耗 时 
非常 接近 的 人 。( 由 图 可 知 ，Seaborn 也 没有 完全 克服 Matplotlib 图 形 样式 的 不 足 : 这 里 主 
要 是 x 轴 刻 度 值 重 码 的 问题 。 但 由 于 这 是 一 个 比较 简单 的 Matplotlib 图 形 ， 我 们 可 以 按照 
4.12 节 介 绍 的 方法 调整 刻度 值 。) 

对 比 男女 选手 之 间 的 差异 是 件 有 趣 的 事情 。 来 看 这 两 组 选手 前 后 半 程 差异 系数 的 频次 直方 
图 (如 图 4-129 所 示 ) : 


In[33]: sns.kdeplot(data.split_frac[data.gender=='M'], label='men', shade=True) 
sns.kdeplot(data.split_ frac[data.gender=='W'], label='women', shade=True) 
plt.xlabel('split frac'); 
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图 4-128: 马拉松 数据 集中 变量 间 的 相关 性 














图 4-129: 男女 选手 前 后 半 程 差异 系数 分 布 情况 
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有 趣 的 是 ， 在 前 后 半 程 耗 时 接近 的 选手 中 ， 男 选手 比 女 选 手 要 多 很 多 ! 男女 选手 的 分 布 看 

起 来 几乎 都 是 双 峰 分 布 。 我 们 将 男女 选手 不 同年 龄 (age) 的 分 布 函 数 画 出 来 ,看 看 会 得 到 

什么 启示 。 

用 小 提琴 图 (violin plot) 进行 这 两 种 分 布 的 对 比 是 个 不 错 的 办 法 (如 图 4-130 所 示 ) : 
In[34] : 


sns.violinplot("gender", "split frac", data=data, 
palette=["lightblue", "lightpink"]); 
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图 4-130: 用 小 提琴 图 对 比 男女 选手 前 后 半 程 差异 系数 


这 是 另 一 种 对 比 男女 选手 前 后 半 程 差异 系数 分 布 情况 的 方式 。 
让 我 们 再 仔细 看 看 这 幅 图 ， 对 比 两 个 由 年 龄 构成 函数 的 小 提琴 图 。 在 数组 中 创建 一 个 新 
列 ， 表 示 每 名 选手 的 年 龄 段 (如 图 4-131 所 示 ) : 


In[35]: data['age_dec'] = data.age.map(Lambda age: 10 * (age // 10)) 
data.head() 





























Out[35]: 

age gender split final split sec final_sec split frac age dec 
0 33 M 01:05:38 02:08:51 3938.0 7731.0 -0.018756 30 
1 32 M 01:06:26 02:09:28 3986.0 7768.0 -0.026262 30 
2 31 M 01:06:49 02:10:42 4009.0 7842.0 -0.022443 30 
3 38 M 01:06:16 02:13:45 3976.0 8025.0 0.009097 30 
4 31 M 01:06:32 02:13:59 3992.0 8039.0 0.006842 30 
In[36]: 
men = (data.gender == 'M') 
women = (data.gender == 'W') 


with sns.axes_style(style=None): 
sns.violinplot("age dec", "split frac", hue="gender", data=data, 
split=True, inner="quartile", 
palette=["lightblue", "lightpink"]); 











06 El M 
号 


8 有 
4 
CE 
4 
CE 
4 
CE 
4 
一 < 使 一 
一 使 
一 二 
4 
一 -全 


-0.2 





图 4-131: 用 小 提琴 图 表示 不 同性 别 、 年 龄 段 的 前 后 半 程 差异 系数 
通过 上 图 可 以 看 出 男女 选手 的 分 布 差异 : 20 多 岁 至 50 多 岁 各 年 龄 段 的 男 选手 的 前 后 半 程 
差异 系数 概率 密度 都 比 同年 龄 段 的 女 选手 低 一 些 (或 者 可 以 说 任意 年 龄 都 如 此 )。 


还 有 一 个 令 人 惊讶 的 地 方 是 ， 所 有 八 十 岁 以 上 的 女 选 手 都 比 同年 龄 段 的 男 选手 的 表现 好 。 
这 可 能 是 由 于 这 个 年 龄 段 的 选手 容 宝 无 几 ， 样 本 太 少 : 
In[38]: (data.age > 80).sum() 








Out[38]: 7 
让 我 们 再 看 看 后 半 程 加 速 型 选手 的 数据 : 他 们 都 是 谁 ? 前 后 半 程 差异 系数 与 比赛 成 绩 正 相 
关 吗 ?我 们 可 以 轻松 画 出 图 形 。 下 面 用 regplot 为 数据 自动 拟 合 一 个 线性 回归 模型 (如 图 
4-132 所 示 ) : 

In[37]: g = sns.lmplot('final_sec', 'split frac', col='gender', data=data, 


markers=".", scatter_kws=dict(color='c')) 
g.map(plt.axhline, y=0.1, color="k", ls=":"); 
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图 4-132: 男女 选手 的 前 后 半 程 差异 系数 与 比赛 成 绩 
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似乎 有 显著 后 半 程 加 速 的 选手 都 是 比赛 成 绩 在 15 000 秒 ， 即 4 小 时 之 内 的 种 子 选手 。 低 于 
这 个 成 绩 的 选手 很 少 有 显著 的 后 半 程 加 速 。 


4.17 参考 资料 


4.17.1 Matplotlib 资 源 


仅 靠 本 书 一 章 的 内 容 不 可 能 完全 和 覆盖 Matplotlib 的 功能 与 图 形 类 型 。 与 之 前 介绍 过 的 其 他 
程序 包 类 似 ， 在 探索 Matplotlib 的 API 时， 使 用 IPython 的 Tab 键 补 全 和 帮助 功能 (详情 
请 参见 1.2 节 ) 会 非常 有 效 。 另 外 ，Matplotlib 的 在 线 文档 (http://matplotlib.org/) 也 是 非 
常 有 用 的 参考 资料 。 尤 其 是 Matplotlib 画廊 (http://matplotlib.org/gallery.html) 页 面 中 的 
内 容 一 一 它 里 面 有 几 百 张 不 同 图 形 类 型 的 缩 略 图 ， 每 张 图 都 链接 到 一 个 用 于 制作 图 形 的 
Python 代码 页 面 。 通 过 这 种 方式 ， 你 就 可 以 直接 观察 并 学 习 各 种 不 同 的 绘图 样式 与 可 视 化 
技术 了 。 


如 果 要 推荐 一 本 关于 Matplotlib 的 参考 书 ， 那 么 我 推荐 Interactive Applications Using Matplotlib 
(http://bit.ly/2fSqswQ)， 作 者 是 Matplotlib 的 核心 开发 者 Ben Root。 


4.17.2 ”其 他 Python 画图 程序 库 


虽然 Matplotlib 是 最 知名 的 Python 可 视 化 程序 库 ， 但 其 实 还 有 许多 现代 画图 工具 也 值得 一 

探究 竟 。 下 面 简单 介绍 几 个 程序 库 。 

。 Bokeh (http://bokeh.pydata.org) 是 一 个 用 Python 做 前 端的 JavaScript 可 视 化 程序 库 ， 支 
持 非 常 强大 的 交互 可 视 化 功能 ， 可 以 处 理 非常 大 的 批 数 据 和 /或 流 数 据 。Python 前 端 会 
生成 一 份 JSON 数据 结构 ， 通 过 Bokeh 的 JS 引擎 进行 泻 染 。 

。 Plotly (http://plot.ly) 是 Plotly 公司 开发 的 同名 开源 产品 ， 其 设计 理念 与 Bokeh 类 似 。 
由 于 Plotly 从 一 开始 就 是 主打 产品 ， 因 此 得 到 了 高 水 平 的 开发 支持 。 可 以 免费 使 用 。 

。 Vispy (http:/vispy.org/) 是 一 个 侧重 于 大 数据 动态 可 视 化 的 项 目 。 由 于 它 建立 在 
OpenGL 接口 上 并 且 可 以 充分 利用 电脑 的 显卡 ， 因 此 可 以 泻 染 出 令 人 叹为观止 的 大 型 数 
据 可 视 化 图 。 

。 Vega (https://vega.github.io/) 与 Vega-Lite (https://vega.github.io/vega-lite) 采用 声明 式 
(declarative) 图 形 表示 方法 ， 是 在 数据 可 视 化 基础 语言 多 年 的 研究 成 果 上 形成 的 产品 。 
最 终 图 形 泻 染 是 JavaScript， 但 是 API 与 编程 语言 无 关 。 这 就 是 用 Altair 程序 包 (http:// 
altair-viz.github.io/) 实现 的 Python API。 虽 然 目 前 还 不 成 熟 ， 但 我 依然 因 这 款 产 品 也 许 
可 以 为 Python 和 其 他 编程 语言 提供 相同 的 数据 可 视 化 基础 理念 而 兴奋 不 已 。 


Python 社区 里 的 数据 可 视 化 空间 可 谓 日 新 月 异 ， 很 可 能 我 现在 写 的 这 些 内 容 在 刚刚 出 版 时 
就 已 经 过 时 了 。 请 及 时 关注 Python 数据 可 视 化 的 最 新 进展 ! 




















































































































































































































第 5 章 


机 器 学 习 





机 器 学 习 在 许多 方面 都 可 以 看 作 是 数据 科学 能 力 延 伸 的 主要 手段 。 机 器 学 习 是 用 数据 科学 
的 计算 能 力 和 算法 能 力 去 弥补 统计 方法 的 不 足 ， 其 最 终结 果 是 为 那些 目前 既 没 有 高 效 的 理 
论 支持 、 又 没有 高 效 的 计算 方法 的 统计 推理 与 数据 探索 问题 提供 解决 方法 。 

“机 器 学 习 ” 这 个 词 现 在 太 流 行 了 ,念佛 是 一 种 万 能 药 : 只 要 对 数据 做 了 机 器 学 习 ， 那 么 
所 有 问题 都 可 以 迎刃而解 ! 正如 你 所 知 , “理想 很 丰满 ， 现实 很 骨 感 "， 事 实 远 没 那 么 简 
单 。 虽 然 机 器 学 习 方 法 都 很 强大 ， 但 是 如 果 想 有 效 地 使 用 这 些 方法 ， 必 须 先 掌握 每 种 方法 
的 优 缺 点 ， 同 时 还 要 掌握 一 些 基 本 的 统计 概念 ， 例 如 偏差 (bias) 和 方差 (variance)、 过 
拟 合 〈overfitting) 和 欠 拟 合 (underfitting) ， 等 等 。 


本 章 将 重点 介绍 一 些 机 器 学 习 的 实用 方法 ， 主 要 使 用 Python 的 Scikit-Learn (http://scikit- 
learn.org) 程序 包 。 但 本 章 并 没有 全 面 履 盖 机 器 学 习 的 每 个 领域 那 是 一 个 庞然大物 ， 
需要 的 技术 远 超 本 书 范围 。 另 外 ， 本 章 也 不 是 Scikit-Learn 程序 包 ( 想 了 解 更 多 关于 Scikit- 
Learn 程序 包 的 内 容 ， 请 参见 5.15 节 ) 的 说 明 书 。 本 章 的 主要 目标 如 下 。 

。 介绍 机 器 学 习 的 基本 术语 和 概念 。 

。 介绍 Scikit-Learn 的 API 及 用 法 示例 。 

。 详细 介绍 一 些 最 重要 的 机 器 学 习 方 法 的 具体 用 法 和 使 用 场景 。 

本 章 的 许多 内 容 都 源 自 Scikit-Learn 教程 和 我 之 前 在 PyCon、SciPy、PyData 和 其 他 学 术 会 
议 上 分 享 的 内 容 。 以 下 内 容 都 得 感谢 这 么 多 年 以 来 参 会 者 与 合作 者 的 不 将 赐教 ! 

最 后 ， 如 果 你 需要 更 深入 地 了 解 相 关 技 术 ， 那 么 可 以 参考 5.15 市 的 内 容 。 


5.1 什么 是 机 器 学 习 


在 介绍 各 种 机 器 学 习 方 法 之 前 ， 先 看 看 究竟 什么 是 机 器 学 习 ， 什 么 不 是 机 器 学 习 。 机 器 学 









































习 经 常 被 归 类 为 人 工 智 能 (artificial intelligence) 的 子 领 域 ， 但 我 觉得 这 种 归 类 方法 存在 误 
导 嫌 疑 。 虽 然 对 机 器 学 习 的 研究 确实 是 源 自 人 工 智 能 领域 ， 但 是 机 器 学 习 的 方法 却 应 用 于 
数据 科学 领域 ， 因 此 我 认为 把 机 器 学 习 看 作 是 一 种 数学 建 模 更 合适 。 


机 器 学 习 的 本 质 就 是 借助 数学 模型 理解 数据 。 当 我 们 给 模型 装 上 可 以 适应 观测 数据 的 可 调 
参数 时 ,“ 学 习 ” 就 开始 了 ; 此 时 的 程序 被 认为 具有 从 数据 中 “学 习 ” 的 能 力 。 一 旦 模型 
可 以 拟 合 旧 的 观测 数据 ， 那 么 它们 就 可 以 预测 并 解释 新 的 观测 数据 。 在 后 面 的 内 容 中 ， 我 
会 分 享 一 些 关 于 这 种 数学 方法 的 哲学 闲话 ， 你 会 发 现 数学 模型 的 “学 习 ” 过 程 其 实 与 人 脑 
的 “学 习 ” 过 程 相似 。 

由 于 理解 机 器 学 习 问题 的 类 型 对 于 有 效 使 用 各 种 机 器 学 习 工 具 至 关 重 要 ， 因 此 首先 介绍 关 
于 机 器 学 习 方 法 的 若干 分 类 。 


口中 NE 
5.1.1 机 器 学 习 的 分 类 
机 器 学 习 一 般 可 以 分 为 两 类 : 有 监督 学 习 (supervised learning) 和 无 监督 学 习 (unsupervised 
learning ) 。 


有 监督 学 习 是 指 对 数据 的 若干 特征 与 若干 标签 (类 型 ) 之 间 的 关联 性 进行 建 模 的 过 程 ， 
只 要 模型 被 确定 ， 就 可 以 应 用 到 新 的 未 知 数据 上 。 这 类 学 习 过 程 可 以 进一步 分 为 分 类 
(classification) 任务 与 回归 (regression) 任务 。 在 分 类 任务 中 ， 标 签 都 是 离散 值 ， 而 在 回 
归 任 务 中 ， 标 签 都 是 连续 值 。 我 们 会 在 后 面 的 内 容 中 介绍 这 两 种 有 监督 学 习 方法 。 

无 监督 学 习 是 指 对 不 带 任何 标签 的 数据 特征 进行 建 模 ， 通 常 被 看 成 是 一 种 “让 数据 自己 介 
绍 自己 ”的 过 程 。 这 类 模型 包括 聚 类 (clustering) 任务 和 降 维 (dimensionality reduction) 
任务 。 聚 类 算法 可 以 将 数据 分 成 不 同 的 组 别 ， 而 降 维 算 法 追求 用 更 简洁 的 方式 表现 数据 。 
我 们 同样 会 在 后 面 的 内 容 中 介绍 这 两 种 无 监督 学 习 方 法 。 

另外 ， 还 有 一 种 半 监 督学 习 (semi-supervised learning) 方法 ， 介 于 有 监督 学 习 与 无 监督 学 


习 之 间 。 半 监督 学 习 方法 通常 可 以 在 数据 标签 不 完整 时 使 用 。 
5.1.2 ”机 器 学 习 应 用 的 定性 示例 


下 面 来 介绍 一 些 简 单 的 机 器 学 习 任 务 示例 ， 让 这 些 抽象 理论 显得 更 具体 一 点 。 这 些 例 子 都 
是 我 们 在 后 面 内 容 中 将 要 看 到 的 机 器 学 习 任 务 的 直观 、 非 量化 形式 ， 之 后 将 更 深入 地 介绍 
相关 模型 的 具体 用 法 。 如 果 想 尽早 了 解 这 些 技术 的 更 多 细节 ， 那 么 请 参见 在 线 附 录 (https:// 
github.com/jakevdp/PythonDataScienceHandbook) 中 生成 下 面 各 个 示例 中 彩 图 的 Python 代码 。 
1. 分 类 : 预测 离散 标签 

先 来 看 一 个 简单 的 分 类 任务 。 假 如 我 们 有 一 些 带 标签 的 数据 点 ， 希 望 用 这 些 信息 为 那些 不 
带 标签 的 数据 点 进行 分 类 。 

假如 这 些 数据 点 的 分 布 如 图 5-1 所 示 (生成 这 幅 图 和 本 节 中 的 其 他 所 有 图 形 的 代码 都 在 
GitHub 的 在 线 附录 中 )。 

我 们 看 到 的 是 二 维 数据 ， 也 就 是 说 每 个 数据 点 都 有 两 个 特征 ， 在 平面 上 用 数据 点 的 cc, y) 
位 置 表示 。 另 外 ， 我 们 的 数据 点 还 用 一 种 颜色 表示 一 个 类 型 标签 ， 一 共有 两 种 类 型 ， 分 别 
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用 两 种 颜色 表示 。 我 们 想 根 据 这 些 特征 和 标签 创建 一 个 模型 ， 帮 助 我 们 判断 新 的 数据 点 是 
“ 蓝 色 ”还 是 “红色 ”。 
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图 5-1: 简单 的 分 类 学 习 数 据 集 

虽然 有 许多 可 以 解决 分 类 任务 的 模型 ， 但 是 这 里 还 是 先 用 最 简单 的 一 种 。 假 设 平面 上 有 一 条 
可 以 将 两 种 类 型 分 开 的 直线 ， 直 线 的 两 侧 分 别 是 一 种 类 型 。 那 么 ， 我 们 的 模型 其 实 就 是 “一 
条 可 以 分 类 的 直线 ”"， 而 模型 参数 其 实 就 是 直线 位 置 与 方向 的 数值 。 这 些 模 型 参数 的 最 优 解 
都 可 以 通过 学 习 数据 获得 (也 就 是 机 器 学 习 的 “学 习 ”)， 这 个 过 程 通常 被 称 为 训练 模型 。 

图 5-2 是 为 这 组 数据 分 类 而 训练 的 模型 。 
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图 5-2: 简单 的 分 类 模型 
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模型 现在 已 经 训练 好 了 ， 可 以 对 一 个 新 的 、 不 带 标 签 的 数据 进行 分 类 了 。 也 就 是 说 ， 我 们 
可 以 拿 一 组 新 数据 ， 把 这 个 模型 的 直线 画 在 上 面 ， 然 后 根据 这 个 模型 为 新 数据 分 配 标签 。 
这 个 阶段 通常 被 称 为 预测 ， 如 图 5-3 所 示 。 




















5-3: 对 新 数据 应 用 分 类 模型 

这 就 是 机 器 学 习 中 最 基本 的 分 类 思想 ， 这 个 “分 类 ” 指 的 是 数据 具有 离散 的 类 型 标签 。 刚 

一 开始 ， 你 可 能 会 觉得 分 类 非常 简单 : 不 就 是 直接 观察 数据 ， 然 后 画 一 条 分 割 线 就 可 以 

了 。 但 是 ， 机 器 学 习 方 法 的 真正 用 途 是 要 解决 大 型 高 维度 数据 集 的 分 类 问题 。 

以 常见 的 分 类 任务 一 一 垃圾 邮件 自动 识别 为 例 。 在 这 类 任务 中 ， 我 们 通常 会 获得 以 下 特征 

与 标签 。 

。 特征 1、 特 征 2…… 特 征 na 一 垃圾 邮件 关键 词 与 短语 出 现 的 频次 归 一 化 向 量 (“Viagra” 
“Nigerian prince ”等 )。 

。 标签 一 “垃圾 邮件 ”或 “普通 邮件 ”。 

在 训练 数据 集中 ， 这 些 标签 可 能 是 人 们 通过 观察 少量 邮件 样本 得 到 的 ， 而 剩 下 的 大 量 邮 件 

都 需要 通过 模型 来 判断 标签 。 一 个 训练 有 素 的 分 类 算法 只 要 具备 足够 好 的 特征 (通常 是 成 

千 上 万 个 词 或 短语 ) ， 就 能 非常 高 效 地 进行 分 类 。5.5 市 将 介绍 一 个 文本 分 类 的 例子 。 

我 们 还 会 详细 介绍 一 些 重 要 的 分 类 算法 ， 包 括 高 斯 朴素 贝 叶 斯 分 类 (详情 请 参见 5.5 节 )、 

支持 向 量 机 (详情 请 参见 5.7 节 )， 以 及 随机 森林 分 类 (详情 请 参见 5.8 节 ) 。 

2. 回归 : 预测 连续 标签 

下 面 将 要 介绍 的 回归 任务 与 离散 标签 分 类 算法 相反 ， 其 标签 是 连续 值 。 

观察 如 图 5-4 所 示 的 数据 集 ， 所 有 样本 的 标签 都 在 一 个 连续 的 区 间 内 。 

和 前 面 的 分 类 示例 一 样 ， 我 们 有 一 个 二 维 数 据 ， 每 个 数据 点 有 两 个 特征 。 数 据点 的 颜色 表 

示 每 个 点 的 连续 标签 。 
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图 5-4: 一 个 简单 的 回归 数据 集 





虽然 有 许多 可 以 处 理 这 类 数据 的 回归 模型 ,但 是 我 们 还 是 用 简单 线性 回归 模型 来 预测 数 
据 。 用 简单 线性 回归 模型 作出 假设 ， 如 果 我 们 把 标签 看 成 是 第 三 个 维度 ， 那 么 就 可 以 将 数 
据 拟 合成 一 个 平面 方程 一 一 这 就 是 著名 的 在 二 维 平面 上 线性 拟 合 问题 的 高 阶 情 形 。 

我 们 可 以 将 数据 可 视 化 成 图 5-5 的 形式 。 
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图 5-5: 回归 数据 的 三 维 视角 








请 注意 ， 这 里 特征 1 与 特征 2 平面 与 之 前 的 二 维 图 形 是 一 样 的 ， 只 不 过 用 了 颜色 和 三 维 坐 
标 轴 的 位 置 表示 标签 。 通 过 这 个 视角 ， 就 有 理由 相信 : 如 果 将 三 维 数据 拟 合成 一 个 平面 ， 
就 可 以 对 任何 输入 参数 集 进 行 预测 。 回 到 原来 的 二 维 投影 图 形 上 ， 拟 合 平面 时 获得 的 结果 
如 图 5-6 所 示 。 
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图 5-6: 回归 模型 的 结果 


这 个 拟 合 平面 为 预测 新 数据 点 的 标签 提供 了 依据 。 我 们 可 以 直观 地 找到 结果 ， 如 图 5-7 


所 示 。 
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图 5-7; 对 新 数据 应 用 回归 模型 


和 之 前 介绍 的 分 类 示例 类 似 ， 这 个 回归 示例 在 低 维 度 时 看 起 来 可 能 也 非常 简单 。 但 是 这 些 
方法 的 真实 价值 在 于 ， 它 们 可 以 直截了当 地 处 理 包 含 大 量 特征 的 数据 集 。 








类 似 的 任务 有 计算 通过 天 文 望远镜 观测 到 的 星系 的 距离 一 一 丰 


E 这 类 任务 中 ， 可 能 会 用 到 以 





下 特征 与 标签 。 


。 特征 1、 特 征 2…… 特 征 na 一 具有 若干 波长 或 颜色 的 星系 的 亮度 。 


。 标签 一 星系 的 距离 或 红 移 (redshift) 。 


少量 星系 的 距离 可 以 通过 直接 观察 (通常 成 本 也 非常 高 ) 进行 测量 。 之 后 ， 我 们 就 可 以 利 
用 适当 的 回归 模型 估计 其 他 星系 的 距离 ， 而 不 需要 为 整个 星系 集合 使 用 昂贵 的 观察 设备 。 
在 天 文学 领域 中 ， 这 种 问题 通常 被 称 为 “ 测 光 红 移 ”(photometric redshift) 。 





296 | 第 5 章 


图 灵 社 区 会 员 ChenyangGao(233908351 


0@qq.com) 专 享 尊重 版 权 

















我 们 还 会 详细 介绍 一 些 重要 的 回归 算法 ， 包 括 线性 回归 (详情 请 参见 5.6 节 )、 支 持 向 量 机 
(详情 请 参见 5.7 节 ) ， 以 及 随机 森林 回归 (详情 请 参见 5.8 节 ) 。 

3. 聚 类 : 为 无 标签 数据 添加 标签 
前 面 介绍 的 回归 与 分 类 示例 都 是 有 监督 学 习 算 法 ， 需 要 建立 一 个 模型 来 预测 新 数据 的 标 
签 。 无 监督 学 习 涉及 的 模型 将 探索 没有 任何 已 知 标签 的 数据 。 

无 监督 学 习 的 普遍 应 用 之 一 就 是 “ 聚 类 ”一 一 数据 被 聚 类 算法 自动 分 成 若干 离散 的 组 别 。 
例如 ， 我 们 有 如 图 5-8 所 示 的 一 组 二 维 数据 。 
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图 5-8: 聚 类 数据 


仅 通 过 肉眼 观察 ， 就 可 以 很 清晰 地 判断 出 这 些 点 应 该 归于 哪个 组 。 一 个 聚 类 模型 会 根据 输 
入 数据 的 固有 结构 判断 数据 点 之 间 的 相关 性 。 通 过 最 快 、 最 直观 的 k-means 聚 类 算法 ( 详 
情 请 参见 5.11 节 )， 就 可 以 发 现 如 图 5-9 所 示 的 类 徐 (cluster)。 
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图 5-9: k-means 聚 类 模型 给 出 的 数据 标签 
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k-means 会 拟 合 出 一 个 由 磊 个 得 中 心 点 构成 的 模型 ， 最 优 的 簇 中 心 点 需要 满足 复 中 的 每 个 
点 到 该 中 心 的 总 距离 最 短 。 显 然 ， 在 二 维 平面 上 用 聚 类 算法 显得 非常 幼稚 ， 但 随 着 数据 量 
越 来 越 大 、 维 度 越 来 越 多 ， 聚 类 算法 对 于 探索 数据 集 的 信息 会 变 得 十 分 有 效 。 

我 们 将 在 5.11 节 详 细 介绍 k-means 聚 类 算法 。 其 他 重要 的 聚 类 算法 还 有 高 斯 混合 模型 〈 详 
情 请 参见 5.12 节 ) 和 谱 聚 类 (详情 请 参考 Scikit-Learn 察 类 文档 ，http://scikit-learn.org/ 
stable/modules/clustering.html) 


4. 降 维 : 推断 无 标签 数据 的 结构 

降 维 是 另 一 种 无 监督 算法 示例 ， 需 要 从 数据 集 本 身 的 结构 推断 标签 和 其 他 信息 。 虽 然 降 维 
比 之 前 看 到 的 示例 要 抽象 一 些 ， 但 是 一 般 来 说 ， 降 维 其 实 就 是 在 保证 高 维 数据 质量 的 条 件 
下 从 中 抽取 出 一 个 低 维 数据 集 。 不 同 的 降 维 算法 用 不 同 的 方式 衡量 降 维 质量 ，5.10 市 将 介 


绍 这 些 内 容 。 


















































下 面 用 一 个 示例 进行 演示 ， 数 据 如 图 5-10 所 示 。 
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图 5-10: 降 维 示例 数据 


从 图 中 可 以 清晰 地 看 出 数据 存在 某 种 结构 : 这 些 数 据点 在 二 维 平面 上 按照 一 维 螺 旋 线 整齐 
地 排列 。 从 某 种 程度 上 ， 你 可 以 说 这 些 数据 “本 质 上 ”只 有 一 维 ， 虽 然 这 个 一 维 数据 是 租 
在 高 维 数据 空间 里 的 。 适 合 这 个 示例 的 降 维 模 型 不 仅 需要 满足 数据 的 非 线 性 藤 套 结构 ， 而 
且 还 要 给 出 低 维 表现 形式 。 

图 5-11 是 通过 Isomap 算法 得 到 的 可 视 化 结果 ， 它 是 一 种 专门 用 于 解决 这 类 问题 的 流 形 学 
习 算法 。 
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图 5-11: 降 维 算法 给 出 的 数据 标签 


请 注意 ， 图 中 的 颜色 (表示 算法 提取 到 的 一 维 潜在 变量 ) 沿 着 螺旋 线 呈 现 均 义 变 化 ， 表 明 
这 个 算法 的 确 发 现 了 肉眼 所 能 观察 到 的 结构 。 和 之 前 介绍 的 示例 类 似 ， 降 维 算法 同样 要 在 
处 理 高 维 数据 时 才能 大 展 拳脚 。 例 如 ， 我 们 可 能 需要 对 一 个 包含 100 或 1000 个 特征 的 数 
据 集 内 部 的 关联 性 进行 可 视 化 。 要 对 一 个 1000 维 的 数据 进行 可 视 化 是 个 巨大 的 挑战 ， 一 
种 解决 办 法 就 是 通过 降 维 技术 ， 让 我 们 可 以 在 更 容易 处 理 的 二 维 或 三 维 空间 中 对 数据 进行 
可 视 化 。 


我 们 还 会 详细 介绍 一 些 重要 的 降 维 算法 ， 包 括 主 成 分 分 析 (详情 请 参见 5.9 节 ) 和 各 种 流 
形 学 习 算法 ， 如 Isomap 算法 、 局 部 线性 娩 入 算法 (详情 请 参见 5.10 节 )。 


























5.1.3 ”小结 

前 面 介 绍 了 一 些 机 器 学 习 方 法 基本 类 型 的 示例 。 虽 然 我 们 略 过 了 许多 重要 的 实践 细节 ， 但 
我 还 是 希望 这 节 的 内 容 可 以 让 你 对 用 机 器 学 习 方法 解决 问题 的 基本 思路 有 所 了 解 。 

综 上 所 述 ， 本 节 介 绍 的 主要 有 以 下 内 容 。 

有 监督 学 习 


可 以 训练 带 标签 的 数据 以 预测 新 数据 标签 的 模型 。 








分 类 

可 以 预测 两 个 或 多 个 离散 分 类 标签 的 模型 。 
回归 

可 以 预测 连续 标签 的 模型 。 
无 监督 学 习 


识别 无 标签 数据 结构 的 模型 。 
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聚 类 

检测 、 识 别 数据 显著 组 别 的 模型 。 
降 维 

从 高 维 数据 中 检测 、 识 别 低 维 数据 结构 的 模型 。 
后 面 的 内 容 将 会 深入 介绍 各 个 类 型 的 具体 算法 ， 并 且 通 过 一 些 有 趣 的 示例 说 明 这 些 算法 的 
使 用 场景 。 
前 面 内 容 中 的 所 有 图 形 都 是 通过 真实 的 机 器 学 习 计 算 实 现 的 。 所 有 图 形 的 生成 代码 都 位 于 
在 线 文档 (http://github.com/jakevdp/PythonDataScienceHandbook) 中 。 


5.2 Scikit-Learn 简 介 


目前 ， Python 有 不 少 可 以 实现 各 种 机 器 学 习 算法 的 程序 库 。Scikit-Learn (http://scikit-learn. 
org) 是 最 流行 的 程序 包 之 一 ， 它 为 各 种 常用 机 器 学 习 算 法 提供 了 高 效 版 本 。Scikit-Learn 
不 仅 因 其 干净 、 统 一、 管道 命令 式 的 API 而 独 具 特 色 ， 而 且 它 的 在 线 文档 又 实用 、 又 完 
整 。 这 种 统一 性 的 好 处 是 ， 只 要 你 掌握 了 Scikit-Learn 一 种 模型 的 基本 用 法 和 语法 ， 就 可 
以 非常 平滑 地 过 渡 到 新 的 模型 或 算法 上 。 

本 市 内 容 对 Scikit-Learn 的 API 进行 概述 。 真 正 理解 这 些 API 的 组 成 部 分 将 对 更 深入 地 理 
解 机 器 学 习 算 法 与 技巧 大 有 神 益 。 

首先 介绍 ScikitLeam 的 数据 表示 (data representation) ， 然 后 介绍 评估 器 API (Estimator AP1)， 
最 后 通过 一 个 有 趣 的 示例 演示 如 何 用 这 些 工具 探索 手写 数字 图 像 。 


5.2.1 Scikit-Learn 的 数据 表示 


机 器 学 习 是 从 数据 创建 模型 的 学 问 ， 因 此 你 首先 需要 了 解 怎 样 表示 数据 才能 让 计算 机 理 
解 。Scikit-Learn 认为 数据 表示 最 好 的 方法 就 是 用 数据 表 的 形式 。 

1. 数据 表 

基本 的 数据 表 就 是 二 维 网 格 数据 ， 其 中 的 每 一 行 表 示 数 据 集中 的 每 个 样本 ， 而 列表 示 构 成 
每 个 样本 的 相关 特征 。 例 如 Ronald Fisher 在 1936 年 对 意 尾 花 数 据 集 (https://en.wikipedia. 
org/wiki/Iris_flower_data_set) 的 经 由 分析。 我 们 用 Seaborn 程序 库 (https:/stanford. 
edu/~mwaskom/software/seaborn/) 下 载 数据 并 加 载 到 Pandas 的 DataFrame 中 : 





































































































In[1]: import seaborn as sns 
iris = sns.load dataset('iris') 
iris.head() 


Out[1]: sepal_length sepal width petal_length petal width species 
0 S's B53 1.4 0.2 setosa 
1 4.9 3.0 1.4 0.2 setosa 
2 4.7 3.2 TL3 0.2 setosa 
3 4.6 3.1 :5 0.2 setosa 
4 5.0 3.6 1.4 0.2 setosa 














其 中 的 每 行 数据 表示 每 打 被 观察 的 刻 尾 花 ， 行 数 表 示 数 据 集 中 记录 的 化 尾 花 总 数 。 一 般 情 
况 下 ， 会 将 这 个 矩阵 的 行 称 为 样本 (samples)， 行 数 记 为 n_samples。 

同样 ， 每 列 数据 表示 每 个 样本 某 个 特征 的 量化 值 。 一 般 情况 下 ,会 将 矩阵 的 列 称 为 特征 
(features) ， 列 数 记 为 n_features。 

2. 特征 和 矩阵 

这 个 表格 布局 通过 二 维 数组 或 矩阵 的 形式 将 信息 清晰 地 表达 出 来 ， 所 以 我 们 通常 把 
这 类 和 矩阵 称 为 特征 和 矩 阵 (features matrix)。 特 征 和 矩阵 通常 被 简 记 为 变量 Xx。 它 是 维 
度 为 [n_samples，n_features] 的 二 维 矩 阵 ， 通 常 可 以 用 NumPy 数组 或 Pandas 的 
DataFrame 来 表示 ， 不 过 Scikit-Learn 也 支持 SciPy 的 稀疏 矩阵 。 

样本 ( 即 每 一 行 ) 通常 是 指数 据 集 中 的 每 个 对 象 。 例 如 ， 样 本 可 能 是 一 打 花 、 一 个 人 、 
篇 文档 、 一 幅 图 像 ， 或 者 一 首 歌 、 一 部 影片 、 一 个 天 体 ， 甚 至 是 任何 可 以 通过 一 组 量化 方 
法 进行 测量 的 实体 。 

特征 〈 即 每 一 列 ) 通常 是 指 每 个 样本 都 具有 的 某 种 量化 观测 值 。 一 般 情 况 下 ， 特 征 都 是 实 
数 ， 但 有 时 也 可 能 是 布尔 类 型 或 者 离散 值 。 

3. 目标 数组 

除了 特征 矩阵 X 之 外， 我 们 还 需要 一 个 标签 或 目标 数组 ， 通常 简 记 为 y。 目 标 数组 一 般 
是 一 维 数组 ， 其 长 度 就 是 样本 总 数 n_samptes， 通 常 都 用 一 维 的 NumPy 数组 或 Pandas 的 
Series 表示。 目标 数组 可 以 是 连续 的 数值 类 型 ， 也 可 以 是 离散 的 类 型 /标签 。 虽 然 有 些 
Scikit-Learn 的 评估 器 可 以 处 理 具 有 多 目标 值 的 二 维 [n_samples，n_targets] 目标 数组 ， 但 
此 处 基本 上 只 涉及 常见 的 一 维 目 标 数组 问题 。 


如 何 区 分 目标 数组 的 特征 与 特征 算 阵 中 的 特征 列 ， 一 直 是 个 问题 。 目 标 数 组 的 特征 通常 
是 我 们 希望 从 数据 中 预测 的 量化 结果 ， 借用 统计 学 的 术语 ，y 就 是 因 变 量 。 以 前 面 的 示 
例 数 据 为 例 ， 我 们 需要 通过 其 他 测量 值 来 建立 模型 ， 预 测 花 的 品种 (species)， 而 这 里 的 
species 列 就 可 以 看 成 是 目标 数组 。 
知道 这 一 列 是 目标 数组 之 后 ， 就 可 以 用 Seaborn (详情 请 参见 4.16 节 ) 对 数据 进行 可 视 化 
了 (如 图 5-12 所 示 ) : 
In[2]: %matplotlib inline 

import seaborn as sns; sns.set() 

sns.pairplot(iris, hue='species', size=1.5); 
在 使 用 Scikit-Learn 之 前 ， 我 们 需要 从 DataFrame 中 抽取 特征 矩阵 和 目标 数组 。 可 以 用 第 3 
章 介绍 的 Pandas DataFrame 基本 操作 来 实现 : 


In[3]: X_iris = iris.drop('species', axis=1) 
X_iris.shape 




























































































Wh 





Out[3]: (150, 4) 


In[4]: y_iris = iris['species'] 
y_iris.shape 


Out[4]: (150,) 
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图 5-12: 营 尾 花 数 据 集 的 可 视 化 
特征 矩阵 和 目标 数组 的 布局 如 图 5-13 所 示 。 
Feature Matrix (X) Target Vector (vy) 
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图 5-13: Scikit-Learn 数据 表 布 局 


有 了 适当 的 数据 形式 之 后 ， 就 可 以 开始 学 习 Scikit-Learn 的 评估 器 API 了 。 


5.2.2 Scikit-Learn 的 评估 器 API 
Scikit-Learn API 主要 遵照 以 下 设计 原则 ，Scikit-Learn API 文档 也 对 此 有 所 概述 。 











统一 性 
所 有 对 象 使 用 共同 接口 连接 一 组 方法 和 统一 的 文档 。 

















内 省 
所 有 参数 值 都 是 公共 属性 。 
限制 对 象 层级 


只 有 算法 可 以 用 Python 类 表示 。 数 据 集 都 用 标准 数据 类 型 (NumPy 数组 、Pandas 
DataFrame、SciPy 稀 玻 矩阵) 表示 ， 参 数 名 称 用 标准 的 Python 字符 串 。 
函数 组 合 
许多 机 器 学 习 任 务 都 可 以 用 一 串 基本 算法 实现 ，ScikitrLearn 尽力 支持 这 种 可 能 。 
明智 的 默认 值 
当 模 型 需要 用 户 设置 参数 时 ，Scikit-Learn 预先 定义 适当 的 默认 值 。 
只 要 你 理解 了 这 些 设 计 原 则 ， 就 会 发 现 Scikit-Learn 非常 容易 使 用 。Scikit-Learn 中 的 所 有 
机 器 学 习 算法 都 是 通过 评估 器 API 实现 的 ， 它 为 各 种 机 器 学 习 应 用 提供 了 统一 的 接口 。 
1. API 基 础 知识 
Scikit-Learn 评估 器 API 的 常用 步骤 如 下 所 示 〈 后 面 介 绍 的 示例 都 是 按照 这 些 步 又 进行 的 )。 
(1) 通 过 从 Scikit-Learn 中 导入 适当 的 评估 器 类 ， 选 择 模型 类 。 
(2) 用 合适 的 数值 对 模型 类 进行 实例 化 ， 配 置 模型 超 参数 (hyperparameter) 。 
(3) 整理 数据 ， 通 过 前 面 介绍 的 方法 获取 特征 矩阵 和 目标 数组 。 
(4) 调用 模型 实例 的 fit() 方法 对 数据 进行 拟 合 。 
(5) 对 新 数据 应 用 模型 
。 在 有 监督 学 习 模 型 中 ， 通 常 使 用 predict() 方法 预测 新 数据 的 标签 ， 
。 在 无 监督 学 习 模型 中 , 通常 使 用 transform() 或 predict() 方法 转换 或 推断 数据 的 性 质 。 


下 面 按照 步骤 来 演示 几 个 使 用 了 有 监督 学 习 方法 和 无 监督 学 习 方 法 的 示例 。 

2. 有 监督 学 习 示 例 : 简单 线性 回归 

让 我 们 来 演示 一 个 简单 线性 回归 的 建 模 步 又 一 一 最 常见 的 任务 就 是 为 散 点 数据 集 (x, y) 拟 
合 一 条 直线 。 我 们 将 使 用 下 面 的 样本 数据 来 演示 这 个 回归 示例 (如 图 5-14 所 示 ) : 


In[5]: import matplotlib.pyplot as plt 
import numpy as np 










































































rng = np.random.RandomState(42) 
x = 10 * rng.rand(50) 
y=2*x- 1+ rng.randn(50) 
plt.scatter(x, y); 
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5-14: 线性 回归 样本 数据 








有 了 数据 ， 就 可 以 将 前 





下 介 绍 的 步骤 付 诸 实现 了 ， 先 一 步 步 来 。 








(1) 选择 模型 
在 Scikit- 








线性 回归 





类 


Learn 中 ， 每 个 模型 类 都 是 一 个 Python 类 。 
模型 b> 


那么 可 以 直接 导入 线性 回归 模型 类 : 





大 











此 ,假如 我 们 想 要 计算 一 个 简单 





In[6]: from sklearn.linear_model import LinearRegression 


除了 简单 线性 模型 ， 常 用 的 线性 模型 还 有 许多 ， 有 具体 内 容 请 参考 sklearn.linear_model 
模块 文档 (http://scikit-learn.org/stable/modules/linear_model.html)。 


(2) 选择 模型 超 参数 
请 注意 ， 模 型 类 与 模型 实例 不 同 。 


当 我 们 选择 了 模型 类 之 后 ， 还 有 许多 参数 需要 配置 。 根 据 不 同 模型 的 不 同情 况 ， 
需要 回答 以 下 问题 。 


。 我 们 想 要 拟 合 偏 移 量 ( 即 直 线 的 截 距 ) 吗 ? 

。 我 们 需要 对 模型 进行 归 一 化 处 理 吗 ? 

。 我 们 需要 对 特征 进行 预 处 理 以 提高 模型 灵活 性 吗 ? 

。 我 们 打算 在 模型 中 使 用 哪 种 正则 化 类 型 ? 

。 我 们 打算 使 用 多 少 模型 组 件 ? 

有 一 些 重要 的 参数 必须 在 选择 模型 类 时 确定 好 。 这 些 参 数 通 常 被 称 为 超 参 数 ， 即 在 模型 
拟 合 数据 之 前 必须 被 确定 的 参数 。 在 Scikit-Learn 中 ， 我 们 通常 在 模型 初始 化 阶段 选择 
超 参数 。5.3 市 将 介绍 如 何 定量 地 选择 超 参 数 。 


你 可 能 












































注 1: model component， 如 GMM 中 的 每 个 正 态 分 布 都 是 一 个 component。 一 一 译 者 注 
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对 于 现在 这 个 线性 回归 示例 来 说 ， 可 以 实例 化 LinearRegression 类 并 用 fit_intercept 
超 参数 设置 是 否 想 要 拟 合 直线 的 截 距 


In[7]: model = LinearRegression(fit intercept=True) 
model 








Out[7]: LinearRegression(copy_X=True, fit intercept=True, n_jobs=1, 
normalize=False) 
需要 注意 的 是 ， 对 模型 进行 实例 化 其 实 仅仅 是 存储 了 超 参数 的 值 。 我 们 还 没有 将 模型 应 
用 到 数据 上 :Scikit-Leam 的 API 对 选择 模型 和 将 模型 应 用 到 数据 区 别 得 很 清晰 。 
(3) 将 数据 整理 成 特征 矩阵 和 目标 数组 

前 面 介绍 了 ScikitLeam 的 数据 表示 方法 ， 它 需要 二 维特 征 矩 阵 和 一 维 目标 数 组 。 虽 然 我 们 
的 目标 数组 已 经 有 了 y (长 度 为 n_samptes 的 数组 )， 但 还 需要 将 数据 x 整理 成 [n_samples， 
n_features] 的 形式 。 在 这 个 示例 中 ， 可 以 对 一 维 数组 进行 简单 的 维度 变换 : 


In[8]: X = x[:, np.newaxis] 
X.shape 





























Out[8]: (50, 1) 
(4) 用 模型 拟 合 数据 
现在 就 可 以 将 模型 应 用 到 数据 上 了 ， 这 一 步 通 过 模型 的 fit() 方法 即 可 完成 : 
In[9]: model.fit(X, y) 


Out[9]: 
LinearRegression(copy_X=True, fit intercept=True, n_jobs=1, 

normalize=False) 
fit() 命令 会 在 模型 内 部 进行 大 量 运 算 ， 运 算 结果 将 存储 在 模型 属性 中 ， 供 用 户 使 用 。 
在 Scikit-Learn 中 ， 所 有 通过 fit() 方法 获得 的 模型 参数 都 带 一 条 下 划 线 。 例 如 ， 在 线 
性 回归 模型 中 ， 模 型 参数 如 下 所 示 : 


In[10]: model.coef_ 


























Out[10]: array([ 1.9776566]) 

In[11]: model.intercept_ 

Out[11]: -0.90331072553111635 

这 两 个 参数 分 别 表示 对 样本 数据 拟 合 直线 的 斜率 和 截 距 。 与 前 面 样本 数据 的 定义 (斜率 
2、 截 距 -1) 进行 比 对 ， 发 现 拟 合 结果 与 样本 非常 接近 。 

模型 参数 的 不 确定 性 是 机 器 学 习 经 常 遇 到 的 问题 。 一 般 情况 下 ，Scikit-Learn 不 会 为 用 
户 提 供 直 接 从 模型 参数 获得 结论 的 工具 ， 与 其 将 模型 参数 解释 为 机 器 学 习 问 题 ， 不 如 说 
它 更 像 统 计 建 模 问题 。 机 器 学 习 的 重点 并 不 是 模型 的 预见 性 。 如 果 你 想 要 对 模型 拟 合 参 
数 的 意义 和 其 他 相关 参数 分 析 工 具有 更 深入 的 理解 ， 请 参考 StatsModels Python 程序 包 


(http://statsmodels.sourceforge.net/) 。 
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(5) 预测 新 数据 的 标签 


模型 训练 出 来 之 后 ， 有 监督 机 器 学 习 的 主要 任务 就 变 成 了 对 不 属于 训练 集 的 新 数据 进行 
预测 。 在 Scikit-Learn 中 ， 我 们 用 predict() 方法 进行 预测 。“ 新 数据 ”是 特征 矩阵 的 x 
坐标 值 ， 我 们 需要 用 模型 预测 出 目标 数组 的 y 轴 坐 标 : 


In[12]: xfit = np.linspace(-1, 11) 


首先 ， 将 这 些 x 值 转换 成 [n_samples，n_features] 的 特征 矩阵 形式 ， 之 后 将 其 输入 到 
模型 中 : 


In[13]: Xfit = xfit[:, np.newaxis] 
yfit = model.predict(Xfit) 























最 后 ， 把 原始 数据 和 拟 合 结果 都 可 视 化 出 来 (如 图 5-15 所 示 ) : 


In[14]: plt.scatter(x, y) 
plt.plot(xfit, yfit); 


通常 都 是 用 一 些 基准 指标 来 验证 模型 的 学 习 效果 ， 我 们 将 在 下 面 的 示例 中 介绍 这 些 指标 。 


























图 5-15: 一 个 简单 的 线性 回归 数据 结果 


3. 有 监督 学 习 示例 : 草 尾 花 数 据 分 类 
再 介绍 一 个 有 监督 学 习 示例 ， 还 是 用 前 面 介绍 过 的 人 兹 尾 花 数 据 集 。 这 个 示例 的 问题 是 : 

















如 何 为 蔓 尾 花 数 据 集 建 立 模型 ， 先 用 一 部 分 数据 进行 训练 ， 再 用 模型 预测 出 其 他 样本 
的 标签 ? 
我 们 将 使 用 非常 简单 的 高 斯 朴素 贝 叶 斯 (Gaussian naive Bayes) 方法 完成 这 个 任务 ， 这 个 





方法 假设 每 个 特征 中 属于 每 一 类 的 观测 值 都 符合 高 斯 分 布 (详情 请 参见 5.5 节 )。 因 为 高 斯 
朴素 贝 叶 斯 方法 速度 很 快 ， 而 且 不 需要 选择 超 参数 ， 所 以 通常 很 适合 作为 初步 分 类 手段 ， 


在 





























昔 助 更 复杂 的 模型 进行 优化 之 前 使 用 。 




















由 于 需要 用 模型 之 前 没有 接触 过 的 数据 评估 它 的 训练 效果 ， 因 此 得 先 将 数据 分 割 成 训练 
集 (training set) 和 测试 集 (testing set) 。 虽 然 完 全 可 以 手动 实现 分 割 数据 集 ， 但 是 借助 
train_test_split 函数 会 更 方便 : 


In[15]: from sklearn.cross_validation import train test_ split 
Xtrain, Xtest, ytrain, ytest = train test split(X iris, y_iris, 



































random_state=1) 


整理 好 数据 之 后 ， 用 下 面 的 模型 来 预测 标签 : 


In[16]: from sklearn.naive_bayes import GaussianNB # 1. 选 择 模 型 类 











model = GaussianNB() # 2. 初 始 化 模型 
model.fit(Xtrain, ytrain) # 3. 用 模型 拟 合 数据 
y_model = model.predict(Xtest) # 4. 对 新 数据 进行 预测 


最 后 ， 用 accuracy_score 工具 验证 模型 预测 结果 的 准确 率 (预测 的 所 有 结果 中 ， 正 确 结 果 


占 总 预测 样本 数 的 比例 ) : 























In[17]: from sklearn.metrics import accuracy_score 
accuracy_score(ytest, y_model) 


Out[17]: 0.97368421052631582 
准确 率 竞 然 高 达 97%， 看 来 即使 是 非常 简单 的 分 类 算法 也 可 以 有 效 地 学 习 这 个 数据 集 ! 
4. 无 监督 学 习 示 例 : 营 尾 花 数据 降 维 


本 市 将 介绍 一 个 无 监督 学 习 问题 一 一 对 化 尾 花 数 据 集 进行 降 维 ， 以 便 能 更 方便 地 对 数据 进 
行 可 视 化 。 前 面 介绍 过 ， 竟 尾 花 数据 集 由 四 个 维度 构成 ， 即 每 个 样本 都 有 四 个 维度 。 














降 维 的 任务 是 要 找到 一 个 可 以 保留 数据 本 质 特 征 的 低 维 矩阵 来 表示 高 维 数据 。 降 维 通常 用 

















于 辅助 数据 可 视 化 的 工作 ， 毕 竞 用 二 维 数据 画图 比 用 四 维 甚 至 更 高 维 的 数据 画图 更 方便 ! 





7 
































下 面 将 使 用 主 成 分 分 析 (principal component analysis，PCA ， 详 情 请 参见 5.9 节 ) 方法 ， 这 


是 一 种 快速 线性 降 维 技术 。 我 们 将 用 模型 返回 两 个 主 成 分 ， 也 就 是 用 二 维 数据 表示 音 尾 花 


的 四 维 数据 。 


同样 按照 前 面 介绍 过 的 建 模 步 骤 进 行 : 


In[18] : 


from skLearn.decomposition import PCA # 1 工 .选择 模型 类 
model = PCA(n_components=2) # 2. 设 置 超 参数 ， 初 始 化 模型 


model.fit(X_iris) 








# 3. 拟 合 数据 ， 注 意 这 里 不 用 y 变 量 


X_2D = model.transform(X_iris)  # 4. 将 数据 转换 为 二 维 




















现在 来 画 出 结果 。 人 快速 处 至 
Seaborn 的 lmplot 方法 画图 




















(如 


方法 就 是 先 将 二 维 数据 插入 到 昔 尾 花 的 DataFrame 中 ， 然 后 用 





图 5-16 所 示 ) : 


In[19]: iris['PCA1'] = X_2D[:，0] 
iris['PCA2'] = X_2D[:, 1] 
sns.lmplot("PCA1", "PCA2", hue='species', data=iris, fit_reg=False); 





/说 














从 二 维 数据 表示 图 可 以 看 日 





4， 虽然 PCA 算法 根本 不 知道 花 的 种 类 标签 ， 但 不 同 种 类 的 花 


还 是 被 很 清晰 地 区 分 开 来 ! 这 表明 用 一 种 比较 简单 的 分 类 方法 就 能 够 有 效 地 学 习 这 份 数据 
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集 ， 就 像 前 面 看 到 的 那样 。 
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图 5-16: 访 尾 花 数 据 的 二 维 投 影 


5. 无 监督 学 习 示 例 : 曹 尾 花 数据 聚 类 
再 看 看 如 何 对 刻 尾 花 数 据 进 行 罕 类 。 聚 类 算法 是 要 对 没有 任何 标签 的 数据 集 进行 分 组 。 
我 们 将 用 一 个 强大 的 聚 类 方法 一 一 高 斯 混合 模型 (Gaussian mixture model,，GMM), 具 
体 细节 将 在 5.12 节 中 介绍 。GMM 模型 试图 将 数据 构造 成 若干 服从 高 斯 分 布 的 概率 密度 
国 数 复 。 
用 以 下 方法 拟 合 高 斯 混合 模型 ; 

In[20]: 

from sklearn.mixture import GMM # 1. 选 择 模型 类 


model = GMM(n_components=3, 
covariance_type='full') # 2. 设 置 超 参 数 ， 初 始 化 模型 











model.fit(X_iris) # 3. 拟 合 数据 ， 注 意 不 需要 y 变 量 
y_gmm = model.predict(X_iris) # 4. 确定 簇 标签 
和 之 前 一 样 ， 将 得 标签 添加 到 瘟 尾 花 的 DataFrame 中 ， 然 后 用 Seaborn 画 出 结果 (如 医 














5-17 所 示 ) : 


In[21]: 

iris['cluster'] = y_gmm 

sns.lmplot("PCA1", "PCA2", data=iris, hue='species', 
col='cluster', fit_reg=False); 


根据 复数 量 对 数据 进行 分 割 ， 就 会 清晰 地 看 出 GMM 算法 的 训练 效果 : setosa ( 山 兹 尾 
花 ) 类 的 花 在 得 0 中 被 完美 地 区 分 出 来 ， 唯 一 的 遗憾 是 第 三 幅 图 中 versicolor (变色 蔓 尾 
花 ) 和 virginical ( 维 吉 尼 亚 兹 尾 花 ) 还 有 一 点 混淆 。 这 就 说 明 ， 即 使 没有 专家 告诉 我 们 每 
采花 的 具体 种 类 ， 但 由 于 每 种 花 的 特征 差异 很 大 ， 因 此 我 们 也 可 以 通过 简单 的 聚 类 算法 自 
动 识 别 出 不 同 种 类 的 花 ! 这 种 算法 还 可 以 帮助 专家 们 探索 观察 样本 之 间 的 关联 性 。 























-A 
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图 5-17: GMM 算法 对 芍 尾 花 数据 的 聚 类 结果 


5.2.3 应用: 手写 数字 探索 
为 了 将 前 面 介绍 的 内 容 应 用 到 更 有 趣 的 问题 上 ， 我 们 来 挑战 一 个 光学 字符 识别 问题 : 手写 
数字 识别 。 简 单 点 说 ， 这 个 问题 包括 图 像 中 字符 的 定位 和 识别 两 部 分 。 为 了 演示 方便 ， 我 
们 选择 使 用 Scikit-Learn 中 自 带 的 手写 数字 数据 集 。 
1. 加 载 并 可 视 化 手写 数字 
首先 用 Scikit-Learn 的 数据 获取 接口 加 载 数据 ， 并 简单 统计 一 下 : 

In[22]: from sklearn.datasets import load digits 


digits = load digits() 
digits.images.shape 

















Out[22]: (1797, 8, 8) 


这 份 图 像 数 据 是 一 个 三 维 矩阵 : 共有 1797 个 样本 ， 每 张 图 像 都 是 8 像素 x 8 像素 。 对 前 
100 张 图 进行 可 视 化 〈 如 图 5-18 所 示 ) : 


In[23]: import matplotlib.pyplot as plt 








fig, axes = plt.subplots(10, 10, figsize=(8, 8), 
subplot_ kw={"'xticks':[], 'yticks':[]}, 
gridspec_kw=dict(hspace=0.1, wspace=0.1)) 


for i, ax in enumerate(axes.flat): 
ax.imshow(digits.images[i], cmap='binary', interpolation='nearest') 
ax.text(0.05, 0.05, str(digits.target[i]), 
transform=ax.transAxes, color='green') 
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5-18: 手写 数字 数据 集 ， 每 个 样本 8 像素 x 8 像素 


为 了 在 Scikit-Learn 中 使 用 数据 ， 需 要 一 个 维度 为 [n_samples，n_features] 的 二 维特 征 和 矩 
阵 一 一 可 以 将 每 个 样本 图 像 的 所 有 像素 都 作为 特征 ， 也 就 是 将 每 个 数字 的 8 像素 x 8 像素 
平 铺 成 长 度 为 64 的 一 维 数 组 。 另 外 ， 还 需要 一 个 目标 数组 ， 用 来 表示 每 个 数字 的 真实 值 
(标签 )。 这 两 份 数据 已 经 放 在 手写 数字 数据 集 的 data 与 target 属性 中 ， 直 接 使 用 即 可 : 


In[24]: X = digits.data 
X.shape 























Out[24]: (1797, 64) 


In[25]: y = digits.target 
ape 


Out[25]: (1797,) 
从 上 面 代码 可 以 看 出 ， 一 共有 1797 个 样本 和 64 个 特征 。 


2. 无 监督 学 习 : 降 维 
虽然 我 们 想 对 具有 64 维 参 数 空间 的 样本 进行 可 视 化 ， 但 是 在 如 此 高 维度 的 空间 中 进行 可 
视 化 十 分 困难 。 因 此 ， 我 们 需要 借助 无 监督 学 习 方 法 将 维度 降 到 二 维 。 这 次 试 试 流 形 学 习 
算法 中 的 lsomap (详情 请 参见 5.10 节 ) 算法 对 数据 进行 降 维 : 
In[26]: from sklearn.manifold import Isomap 
iso = Isomap(n_components=2) 
iso.fit(digits.data) 
data_projected = iso.transform(digits.data) 
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data_projected.shape 
out[26]: (1797, 2) 


现在 数据 已 经 投影 到 二 维 。 把 数据 画 出 来 ， 看 看 从 结构 中 能 发 现 什么 (如 图 5-19 所 示 ) : 


In[27]: plt.scatter(data_projected[:, 0], data_projected[:, 1], c=digits.target, 
edgecolor='none' , alpha=0.5, 
cmap=plt.cm.get_cmap('spectral' , 10)) 

plt.colorbar(label='digit label', ticks=range(10)) 
plt.clim(-0.5, 9.5); 





a 
digit label 














图 5-19: 经 lsomap 算法 处 理 后 的 手写 数字 











这 幅 图 呈现 出 了 非常 直观 的 效果 ， 让 我 们 知道 数字 在 64 维 空间 中 的 分 离 (可 识别 ) 程度 。 
例如 ， 在 参数 空间 中 ， 数 字 0 (黑色 ) 和 数字 1 (紫色 ) 基本 不 会 重 琶 。 根 据 常 识 也 是 如 
此 : 数字 0 是 中 间 一 片 空白 ,而 数字 1 是 中 间 一 片 黑 。 另 外 ， 从 图 中 会 发 现 ， 数 字 1 和 数 
字 4 好 像 有 点 儿 混 淆 一 一 也 许 是 有 些 人 写 数字 1 的 时 候 喜 欢 在 上 面 加 个 “帽子 *"， 因 此 看 
起 来 就 像 是 数字 4。 

虽然 有 些 环 症 ， 但 从 总 体 上 看 ， 各 个 数字 在 参数 空间 中 的 分 离 程度 还 是 令 人 满意 的 。 这 其 
实 告诉 我 们 : 用 一 个 非常 简单 的 有 监督 分 类 算法 就 可 以 完成 任务 。 下 面 来 演示 一 下 。 

3. 数字 分 类 

我 们 需要 找到 一 个 分 类 算法 ， 对 手写 数字 进行 分 类 。 和 前 面 学 习 竟 尾 花 数据 一 样 ， 先 将 数 
据 分 成 训练 集 和 调试 集 ， 然 后 用 高 斯 朴素 贝 叶 斯 模型 来 拟 合 : 


In[28]: Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=0) 















































In[29]: from sklearn.naive_bayes import GaussianNB 
model = GaussianNB() 
model.fit(Xtrain, ytrain) 
y_model = model.predict(Xtest) 


模型 预测 已 经 完成 ， 现 在 用 模型 在 训练 集中 的 正确 识别 样本 量 与 总 训练 样本 量 进行 对 比 ， 
获得 模型 的 准确 率 : 
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In[30]: from sklearn.metrics import accuracy_score 
accuracy_score(ytest, y_model) 


Out[30]: 0.83333333333333337 


可 以 看 出 ， 通 过 一 个 非常 简单 的 模型 ， 数 字 识 别 率 就 可 以 达到 80% 以 上 ! 但 仅 依靠 这 个 指 
标 ， 我 们 无 法 知道 模型 哪里 做 得 不 够 好 ， 解 决 这 个 问题 的 办 法 就 是 用 混淆 矩阵 (confusion 
matrix)。 可 以 用 Scikit-Learn 计算 混淆 矩阵 ， 然 后 用 Seaborn 画 出 来 (如 图 5-20 所 示 ) : 


In[31]: from sklearn.metrics import confusion_matrix 














mat = confusion_matrix(ytest, y_model) 


sns.heatmap(mat, square=True, annot=True, cbar=False) 
plt.xlabel('predicted value') 
plt.ylabel('true vaLue ' ); 





true value 





predicted value 











5-20: 用 混 满 矩阵 显示 分 类 器 误 判 率 


从 图 中 可 以 看 出 ， 误 判 的 主要 原因 在 于 许多 数字 2 被 误 判 成 了 数字 1 或 数字 8。 另 一 种 显 
示 模 型 特征 的 直观 方式 是 将 样本 画 出 来 ， 然 后 把 预测 标签 放 在 左下 角 ， 用 绿色 表示 预测 正 
确 ， 用 红色 表示 预测 错误 (如 图 5-21 所 示 ) : 

In[32]: fig, axes = plt.subplots(10, 10, figsize=(8, 8), 


subplot_kw={"'xticks':[], 'yticks':[]}, 
gridspec_kw=dict(hspace=0.1, wspace=0.1)) 























test_images=xtest.reshape(-1,8,8) 


for i, ax in enumerate(axes.flat): 
ax.imshow(test_ images[i], cmap='binary', interpolation='nearest') 
ax.text(0.05, 0.05, str(y_model[i]), 
transform=ax.transAxes, 
color='green' if (ytest[i] == y_model[i]) else 'red') 
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图 5-21; 正确 (绿色 ) 与 错误 (红色) 预测 标签 ， 彩 图 请 见 在 线 附 录 (https://github.com/jakevdp/ 
PythonDataScienceHandbook) 


郑 


通过 观察 这 部 分 样本 数据 ， 我 们 能 知道 模型 哪里 的 学 习 不 够 好 。 如 果 和 希望 分 类 准确 率 达 到 
80% 以 上 ， 可 能 需要 借助 更 加 复杂 的 算法 ， 例 如 支持 向 量 机 (详情 请 参见 5.7 节 ) 、 随 机 森 
林 (详情 请 参见 5.8 节 )， 或 者 其 他 分 类 算法 。 








5.2.4 小 结 

本 节 介 绍 了 Scikit-Learn 中 数据 表示 方法 和 评估 器 API 的 基本 特征 。 除 了 评估 器 的 类 型 不 
同 ， 导 入 模型 /初始 化 模型 / 拟 合 数据 /预测 数据 的 步骤 是 完全 相同 的 。 对 评估 器 API 有 
了 基本 认识 之 后 ， 你 可 以 参考 Scikit-Learn 文档 继续 学 习 更 多 知识 ， 并 在 你 的 数据 上 尝试 
不 同 的 模型 。 
从 下 一 市 开始 学 习 的 内 容 可 能 是 机 器 学 习 中 最 重要 的 部 分 ， 那 就 是 模型 选择 与 模型 验证 。 


5.3” 超 参数 与 模型 验证 

在 上 一 节 中 ,我 们 介绍 了 有 监督 机 器 学 习 模型 的 基本 步 嗓 ; 
(1) 选择 模型 关 ， 

CO) 选择 模型 超 参 数 ， 

G) 用 模型 折合 训练 数据 ， 

(4) 用 模型 预测 新 数据 的 标签。 
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前 两 步 一 一 模型 选择 和 超 参数 选择 一 一 可 能 是 有 效 使 用 各 种 机 器 学 习 工具 和 技术 的 最 重要 
阶段 。 为 了 作出 正确 的 选择 ， 我 们 需要 一 种 方式 来 验证 选中 的 模型 和 超 参数 是 否 可 以 很 好 
地 拟 合 数据 。 这 看 起 来 是 很 简单 ， 但 要 顺利 地 完成 必须 避 过 很 多 坑 。 


5.3.1 什么 是 模型 验证 
模型 验证 (model validation) 其 实 很 简单 ， 就 是 在 选择 模型 和 超 参 数 之 后 ， 通 过 对 训练 数 
据 进行 学 习 ， 对 比 模型 对 已 知 数据 的 预测 值 与 实际 值 的 差异 。 
在 下 面 的 几 节 中 ， 我 们 首先 通过 一 个 简单 方法 实现 模型 验证 ， 告 诉 你 为 什么 那样 做 行 不 
通 。 之 后 ， 介 绍 如 何 用 留 出 集 (holdout set) 与 交叉 检验 (cross-validation) 实现 更 可 靠 的 
模型 验证 。 
1. 错误 的 模型 验证 方法 
让 我 们 再 用 前 面 介 绍 过 的 刘 尾 花 数据 来 演示 一 个 简单 的 模型 验证 方法 。 首 先 加 载 数据 ; 

In[1]: from sklearn.datasets import load iris 

iris = load_iris() 


X = iris.data 
y = iris.target 


然后 选择 模型 和 超 参数 。 这 里 使 用 一 个 近邻 分 类 器 ， 超 参数 为 n_neighbors=1。 这 是 一 个 
非常 简单 直观 的 模型 ,“ 新 数据 的 标签 与 其 最 接近 的 训练 数据 的 标签 相同 ”: 


In[2]: from sklearn.neighbors import KNeighborsClassifier 
model = KNeighborsClassifier(n_neighbors=1) 


然后 训练 模型 ， 并 用 它 来 预测 已 知 标签 的 数据 : 


In[3]: model.fit(X, y) 
y_model = model.predict(X) 


最 后 ， 计 算 模型 的 准确 率 : 


In[4]: from sklearn.metrics import accuracy_score 
accuracy_score(y, y_model) 
































Out[4]: 1.0 


准确 得 分 是 1.0， 也 就 是 说 模型 识别 标签 的 正确 率 是 100% ! 但 是 这 样 测量 的 准确 率 可靠 
吗 ? 我 们 真 的 有 一 个 在 任何 时 候 准 确 率 都 是 100% 的 模型 吗 ? 

你 可 能 已 经 猜 到 了 ， 答 案 是 否定 的 。 其 实 这 个 方法 有 个 根本 缺陷 : 它 用 同一 套数 据 训 练 和 
评估 模型 。 另 外 ， 最 近邻 模型 是 一 种 与 距离 相关 的 评估 器 ， 只 会 简单 地 存储 训练 数据 ， 然 
后 把 新 数据 与 存储 的 已 知 数据 进行 对 比 来 预测 标签 。 在 理想 情况 下 ， 模 型 的 准确 率 总 是 
100%。 

2. 模型 验证 正确 方法 : 留 出 集 

那 怎 么 才能 模型 验证 呢 ? 其 实 留 出 集 可 以 更 好 地 评估 模型 性 能 ， 也 就 是 说， 先 从 训练 模型 
的 数据 中 留 出 一 部 分 ， 然 后 用 这 部 分 留 出 来 的 数据 来 检验 模型 性 能 。 在 Scikit-Learn 里 面 
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用 train_test_spLit 工具 就 可 以 实现 : 


In[5]: from sklearn.cross_validation import train test split 
# 每 个 数据 集 分 一 半数 据 
X1, X2, yi, y2 = train test_ split(X, y, random_state=0, 
train_size=0.5) 


# 用 模型 拟 合 训练 数据 
modeL.fit(X1，y1) 


# 在 测试 集中 评估 模型 准确 率 
y2_modeL = modeL.predict(X2) 
accuracy_score(y2, y2_model) 








Out[5]: 0.90666666666666662 
这 样 就 可 以 获得 更 合理 的 结果 了 : 最 近邻 分 类 器 在 这 份 留 出 集 上 的 准确 率 是 90%。 这 里 的 
留 出 集 类 似 新 数据 ， 因 为 模型 之 前 没有 “接触 ”过 它们 。 
3. 交叉 检验 
用 留 出 集 进 行 模型 验证 有 一 个 缺点 ， 就 是 模型 失去 了 一 部 分 训练 机 会 。 在 上 面 的 模型 中 ， 
有 一 半数 据 都 没有 为 模型 训练 做 出 贡献 。 这 显然 不 是 最 优 解 ， 而 且 可 能 还 会 出 现 问题 
尤其 是 在 训练 数据 集 规模 比较 小 的 时 候 。 
解决 这 个 问题 的 方法 是 交叉 检验 ， 也 就 是 做 一 组 拟 合 ， 让 数据 的 每 个 子 集 既 是 训练 集 ， 又 
是 验证 集 。 用 图 形 来 说 明 的 话 ， 就 如 图 5-22 所 示 。 



























































伶 证 集 


第 1 轮 


第 2 轮 














图 5-22: 两 轮 交 叉 检验 


这 里 进行 了 两 轮 验证 实验 ， 轮 流 用 一 半数 据 作 为 留 出 集 。 如 果 还 有 前 面 的 数据 集 ， 我 们 可 
以 这 样 实现 交 又 检验 : 
In[6]: y2_model = model.fit(X1, y1).predict(X2) 


y1_modeL = model.fit(X2, y2).predict(X1) 
accuracy_score(y1, yl1 model), accuracy_score(y2, y2_model) 














Out[6]: (0.95999999999999996，0.90666666666666662) 


这 样 就 可 以 获得 两 个 准确 率 ， 将 二 者 结合 〈 例 如 求 均值 ) 获取 一 个 更 准确 的 模型 总 体 性 
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能 。 这 种 形式 的 交叉 检验 被 称 为 两 轮 交 叉 检 验 一 一 将 数据 集 分 成 两 个 子 集 ， 依 次 将 每 个 子 
集 作 为 验证 集 。 


可 以 通过 扩展 这 个 概念 ， 在 数据 中 实现 更 多 轮 的 实验 ， 例 如 图 5-23 是 一 个 五 轮 交 叉 检 验 。 


入 、 
人 验证 集 
-I 

















图 5-23: 五 轮 交 叉 检验 











把 数据 分 成 五 组 ， 每 一 轮 依次 用 模型 拟 合 其 中 的 四 组 数据 ， 再 预测 第 五 组 数据 ， 评 估 模 型 
准确 率 。 手 动 实现 这 些 过 程 会 很 无 聊 ， 用 Scikit-Learn 的 cross_val_score 函数 可 以 非常 简 
便 地 实现 : 


In[7]: from sklearn.cross_validation import cross_val_score 
Cross_val_score(model, X, y, cv=5) 








Out[7]: array([ 0.96666667, 0.96666667, 0.93333333, 0.93333333， 1 ]) 
对 数据 的 不 同 子 集 重复 进行 交 又 检验 ， 可 以 让 我 们 对 算法 的 性 能 有 更 好 的 认识 。 
Scikit-Learn 为 不 同 应 用 场景 提供 了 各 种 交叉 检验 方法 ， 都 以 欠 代 器 (iterator) 形式 在 
cross_validation 模块 ?中 实现 。 例 如 , 我 们 可 能 会 遇 到 交叉 检验 的 轮 数 与 样本 数 相同 的 极 
端 情况 ， 也 就 是 说 我 们 每 次 只 有 一 个 样本 做 测试 ， 其 他 样本 全 用 于 训练 。 这 种 交叉 检验 类 
型 被 称 为 LOO (leave-one-out， 只 留 一 个 ) 交叉 检验 ， 具 体 用 法 如 下 : 

In[8]: from sklearn.cross_validation import LeaveOneOut 


scores = cross_val_score(model, X, y, cv=LeaveOneOut(len(X))) 
scores 




















OUE[8] array([ tas, Ms Tr, Ts Ly Tay Ls A ee ee 














注 2: 从 Scikit-Learn 0.18 版 起 ， 开 始 用 model_selection 模块 代替 cross_validation 模块 ， 并 计划 在 
0.20 版 移 除 程序 包 ， 部 分 交叉 检验 类 的 用 法 也 可 能 会 发 生变 化 。 本 书 按照 作者 原文 保留 cross_ 
validatton， 建 议 读者 使 用 作者 建议 的 Scikit-Learn 版 本 运行 本 书 代 码 。 一 一 译 者 注 
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) 
由 于 我 们 有 150 个 样本 ， 留 一 法 交叉 检验 会 生成 150 轮 试验 ， 每 次 试验 的 预测 结果 要 么 成 
功 〈 得 分 1.0)， 要 么 失败 (得 分 0.0)。 计 算 所 有 试验 准确 率 的 均值 就 可 以 得 到 模型 的 预测 
准确 性 了 : 


In[9]: scores.mean() 








Out[9]: 0.95999999999999996 


其 他 交叉 检验 机 制 的 用 法 大 同 小 异 。 想 了 解 更 多 关于 Scikit-Learn 交叉 检验 的 内 容 ， 可 以 
用 IPython 探索 sklearn.cross_validation 子 模块 ， 也 可 以 浏览 Scikit-Learn 的 交叉 检验 文 
档 (http://scikit-learn.org/ stable/modules/cross_validation.html ) 。 


5.3.2 ”选择 最 优 模 型 

现在 已 经 介绍 了 验证 与 交叉 检验 的 基础 知识 ， 让 我 们 更 进一步 ， 看 看 如 何 选择 模型 和 超 
参数 。 这 是 机 器 学 习 实践 中 最 重要 的 部 分 ， 但 是 许多 机 器 学 习 入 门 教程 都 一 笔 带 过 了 这 
些 内 容 。 

关键 问题 是 : 假如 模型 效果 不 好 ， 应 该 如 何 改善 ? 答案 可 能 有 以 下 几 种 。 

。 用 更 复杂 /更 灵活 的 模型 。 

。 用 更 简单 /更 确定 的 模型 。 
。 采集 更 多 的 训练 样本 。 

。 为 每 个 样本 采集 更 多 的 特征 。 

问题 的 答案 往往 与 直觉 相悖 。 换 一 种 更 
的 训练 样本 也 未 必 能 改善 性 能 ! 改善 模型 
的 标志 。 

1. 偏差 与 方差 的 均衡 

“最 优 模 型 ”的 问题 基本 可 以 看 成 是 找 出 偏差 与 方差 平衡 点 的 问题 。 图 5-24 显示 的 是 对 同 
一 数据 集 拟 合 的 两 种 回归 模型 。 
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复杂 的 模型 有 时 可 能 产生 更 差 的 结果 ， 增 加 更 多 
型 能 力 的 高 低 ， 是 区 分 机 器 学 习 实 践 者 成 功 与 否 
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图 5-24: 高 偏差 与 高 方差 回归 模型 

显然 ， 这 两 个 模型 拟 合 得 都 不 是 很 好 ， 但 它们 的 问题 却 是 不 一 样 的 。 

左边 的 模型 希望 从 数据 中 找到 一 条 直线 。 但 由 于 数据 本 质 上 比 直线 要 复杂 ， 直 线 永远 不 可 
能 很 好 地 描述 这 份 数 据 。 这 样 的 模型 被 认为 是 对 数据 欠 拟 合 ， 也 就 是 说 ， 模 型 没有 足够 的 
灵活 性 来 适应 数据 的 所 有 特征 。 另 一 种 说 法 就 是 模型 具有 高 偏差 。 

右边 的 模型 希望 用 高 阶 多 项 式 拟 合 数据 。 虽 然 这 个 模型 有 足够 的 灵活 性 可 以 近乎 完美 地 
适应 数据 的 所 有 特征 ， 但 与 其 说 它 是 十 分 准确 地 描述 了 训练 数据 ， 不 如 说 它 是 过 多 地 学 
习 了 数据 的 噪音 ， 而 不 是 数据 的 本 质 属 性 。 这 样 的 模型 被 认为 是 对 数据 过 拟 合 ， 也 就 是 
模型 过 于 灵活 ， 在 适应 数据 所 有 特征 的 同时 ， 也 适应 了 随机 误差 。 另 一 种 说 法 就 是 模型 
有 具有 高 方差 。 

现在 再 换个 角度 ， 如 果 用 两 个 模型 分 别 预测 轴 的 数据 ， 看 看 是 什么 效果 。 在 图 5-25 中 ， 
浅 红色 的 点 是 被 预测 数据 集 遗 漏 的 点 。 























High-bias model: Underfits the data High-variance model: Overfits the data 
training score: R? = 0.70 training score: R? = 0.98 
12 validation score: R? = 0.74 12 validation score: R? =-1.8e+0: 


























图 5-25: 高 偏差 与 高 方差 模型 的 训练 得 分 与 验证 得 分 


这 个 分 数 是 R?， 也 称 为 判定 系数 (https://en.wikipedia.org/wiki/Coefficient_of_determination)， 
用 来 衡量 模型 与 目标 值 均值 的 对 比 结果 。R? = 1 表示 模型 与 数据 完全 吻合 ，R” = 0 表示 模 
型 不 比 简单 取 均值 好 ，R? 为 负 表 示 模 型 性 能 很 差 。 从 这 两 个 模型 的 得 分 可 以 得 出 两 条 一 般 
性 的 结论 。 
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。 对 于 高 偏差 模型 ， 模 型 在 验证 集 的 表现 与 在 训练 集 的 表现 类 似 。 

。 对 于 高 方差 模型 ， 模 型 在 验证 集 的 表现 远 远 不 如 在 训练 集 的 表现 。 

如 果 我 们 有 能 力 不 断 调整 模型 的 复杂 度 ， 那 么 我 们 可 能 希望 训练 得 分 和 验证 得 分 如 图 5-26 所 示 。 

图 5-26 通常 被 称 为 验证 曲线 ， 具有 以 下 特征 。 

。 训练 得 分 肯定 高 于 验证 得 分 。 一 般 情况 下 ， 模 型 拟 合 自己 接触 过 的 数据 ， 比 拟 合 没 接触 
过 的 数据 效果 要 好 。 

。 使 用 复杂 度 较 低 的 模型 (高 偏差 ) 时 ， 训 练 数据 往往 欠 拟 合 ， 说 明 模型 对 训练 数据 和 新 
数据 都 缺乏 预测 能 

。 而 使 用 复杂 度 较 高 的 模型 (高 方差 ) 时 ， 训 练 数据 往往 过 拟 合 ， 说 明 模型 对 训练 数据 预 
测 能 力 很 强 ， 但 是 对 新 数据 的 预测 能 力 很 差 。 

。 当 使 用 复杂 度 适中 的 模型 时 ， 验 证 曲线 得 分 最 高 。 说 明 在 该 模型 复杂 度 条 件 下 ， 偏 差 与 
方差 达到 均衡 状态 。 
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图 5-26: 模型 复杂 度 、 训 练 得 分 与 验证 得 分 的 方法 关系 图 
不 同 模型 复杂 度 的 调整 方法 大 不 相同 。 后 文 在 深入 介绍 各 种 模型 时 ， 就 会 讲解 每 种 模型 的 
调整 方法 。 
2. Scikit-Learn 验 证 曲线 
下 面 来 看 一 个 例子 ， 用 交 又 检验 计算 一 个 模型 的 验证 曲线 。 这 里 用 多 项 式 回 归 模 型 ， 它 是 
线性 回归 模型 的 一 般 形式 ， 其 多 项 式 的 次 数 是 一 个 可 调 参 数 。 例 如 ， 多 项 式 次 数 为 1 其 实 
就 是 将 数据 拟 合 成 一 条 直线 。 若 模型 有 参数 a 和 5b， 则 模型 为 : 

y=ax+b 
多 项 式 次 数 为 3， 则 是 将 数据 拟 合 成 一 条 三 次 曲线 。 若 模型 有 参数 a、bp、c、a， 则 模 
型 为 ; 





3 2 
y=ax +bx +cx+d 
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推 而 广 之 ， 就 可 以 得 到 任意 次 数 的 多 项 式 。 在 Scikit-Learn 中 ， 可 以 用 一 个 带 多 项 式 预 处 


























管道 命令 将 在 5.4 市 介绍 ) : 


In[10]: from sklearn.preprocessing import PolynomialFeatures 
from sklearn.linear_model import LinearRegression 
from sklearn.pipeline import make_pipeline 


def PolynomialRegression(degree=2, **kwargs): 
return make_pipeline(PolynomialFeatures(degree), 
LinearRegression(**kwargs)) 


现在 来 创造 一 些 数 据 给 模型 拟 合 : 
In[11]: import numpy as np 


def make_data(N, err=1.0, rseed=1): 
# 随机 轴 样 数据 
rng = np.random.RandomState(rseed) 
X = rng.rand(N, 1) ** 2 
y= 10 -1./ (X.ravel() + 0.1) 
if err > 0: 
y += err * rng.randn(N) 
return X, y 





X, y = make_data(40) 


通过 数据 可 视 化 ， 将 不 同 次 数 的 多 项 式 拟 合 曲线 画 出 来 (如 图 5-27 所 示 ) : 


In[12]: %matplotlib inline 
import matplotlib.pyplot as plt 
import seaborn; seaborn.set() # 设置 图 形 样式 

















X_test = np.linspace(-0.1, 1.1, 500)[:, None] 


plt.scatter(X.ravel(), y, color='black') 
axis = plt.axis() 
for degree in [1, 3, 5]: 


理 器 的 简单 线性 回归 模型 实现 。 我 们 将 用 一 个 管道 命令 来 组 合 这 两 种 操作 (多 项 式 特征 与 





y_test = PolynomialRegression(degree).fit(X, y).predict(X_test) 


plt.plot(X_test.ravel(), y_test, label='degree={0}' .format( 
plt.xlim(-0.1, 1.0) 
plt.ylim(-2, 12) 
plt. legend(loc='best'); 


degree)) 


这 个 例子 中 控制 模型 复杂 度 的 关键 是 多 项 式 的 次 数 ， 它 只 要 是 非 负 整数 就 可 以 。 那 么 
问题 来 了 : 究竟 多 项 式 的 次 数 是 多 少 ， 才 能 在 偏差 ( 欠 拟 合 ) 与 方差 (过 拟 合 ) 间 达 





到 平衡 ? 




















图 5-27: 用 三 种 多 项 式 回归 模型 拟 合 一 份 数据 


我 们 可 以 通过 可 视 化 验证 曲线 来 回答 这 个 问题 一 一 利用 Scikit-Learn 的 validation_curve 
函数 就 可 以 非常 简单 地 实现 。 只 要 提供 模型 、 数 据 、 参 数 名称 和 验证 范围 信息 ， 函 数 就 会 
自动 计算 验证 范围 内 的 训练 得 分 和 验证 得 分 (如 图 5-28 所 示 ) : 


In[13]: 

from sklearn.learning_curve import validation_curve 

degree = np.arange(0, 21) 

train_score, val_score = validation_curve(PolynomialRegression(), X, y, 
'polynomialfeatures__degree', 
degree, cv=7) 

















plt.plot(degree, np.median(train_score, 1), color='blue', label='training score') 
plt.plot(degree, np.median(val_score, 1), color='red', label='validation score') 
plt.legend(loc='best') 

plt.ylim(0, 1) 

plt.xlabel('degree') 

plt.ylabel('score'); 


这 幅 图 可 以 准确 显示 我 们 想 要 的 信息 : 训练 得 分 总 是 比 验 证 得 分 高 ， 训 练 得 分 随 着 模型 复 
杂 度 的 提升 而 单调 递增 ， 验证 得 分 增长 到 最 高 点 后 由 于 过 拟 合 而 开始 又 降 。 


从 验证 曲线 中 可 以 看 出 ， 偏 差 与 方差 均衡 性 最 好 的 是 三 次 多 项 式 。 我 们 可 以 计算 结果 ， 六 
将 模型 画 在 原始 数据 上 (如 图 5-29 所 示 ) : 


In[14]: plt.scatter(X.ravel(), y) 
lim = plt.axis() 
y_test = PolynomialRegression(3).fit(X, y).predict(X_test) 
plt.plot(X_test.ravel(), y_test); 
plt.axis(lim); 











Vp 
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5-28: 图 5-27 的 验证 曲线 (参考 图 5-26 ) 














5-29: 图 5-27 数据 的 交叉 检验 最 优 模型 





虽然 寻找 最 优 模型 并 不 需要 我 们 计算 训练 得 分 ， 但 是 检查 训练 得 分 与 验证 得 分 之 间 的 关系 
可 以 让 我 们 对 模型 的 性 能 有 更 加 直观 的 认识 。 


5.3.3 ”学习 曲线 
影响 模型 复杂 度 的 另 一 个 重要 因素 是 最 优 模型 往往 受到 训练 数据 量 的 影响 。 例 如 ， 生 成 前 
而 $ 倍 的 数据 (200 个 点 ) (如 图 5-30 所 示 ) : 


In[15]: X2，y2 = make_data(200) 
plt.scatter(X2.ravel(), y2); 
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图 5-30: 用 学 习 曲 线 演示 数据 
还 用 前 面 的 方法 画 出 这 个 大 数据 集 验 证 曲线 。 为 了 对 比 ， 把 之 前 的 曲线 也 画 出 来 (如 图 














5-31 所 示 ) : 


In[16] : 


degree = np.arange(21) 
train_score2, val_score2 = validation curve(PolynomialRegression(), X2, y2, 
'polynomialfeatures__degree', 


degree, cv= 


7) 


plt.plot(degree, np.median(train_score2, 1), color='blue', 
label='training score') 
plt.plot(degree, np.median(val_score2, 1), color='red', label='validation score') 
plt.plot(degree, np.median(train_score, 1), color='blue', alpha=0.3, 
linestyle='dashed') 
plt.plot(degree, np.median(val_score, 1), color='red', alpha=0.3, 
linestyle='dashed') 
plt.legend(loc="' lower center') 
plt.ylim(0, 1) 
plt.xlabel('degree') 
plt.ylabel('score'); 


实 线 是 大 数据 集 的 验证 曲线 ， 而 虚线 是 前 面 小 数据 集 的 验证 1 





























1 线 。 从 验证 曲线 可 以 明显 看 











出 ， 大 数据 集 支 持 更 复杂 的 模型 : 虽然 得 分 顶点 大 概 是 六 次 多 项 式 ， 但 是 即使 到 了 二 十 次 


多 项 式 ， 过 拟 合 情况 也 不 太 严 重 一 一 验证 得 分 与 训练 得 分 依然 十 分 接近 。 











通过 观察 验证 | 


























1 线 的 变化 趋势 ， 可 以 发 现 有 两 个 影响 模型 效果 的 因素 : 模型 复杂 度 和 训练 








数据 集 的 规模 。 通 常 ， 我 们 将 模型 看 成 是 与 训练 数据 规模 相关 的 国 数 ， 通 过 不 断 扩 大 数据 
集 的 规模 来 拟 合 模型 ， 以 此 来 观察 模型 的 行为 。 反 映 训练 集 规模 的 训练 得 分 / 验证 得 分 曲 
线 被 称 为 学 习 曲 线 (learning curve) 。 
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图 5-31: 多 项 式 模型 拟 合 图 5-30 数据 的 学 习 曲 线 


学 习 曲 线 的 特征 包括 以 下 三 点 。 

。 特定 复杂 度 的 模型 对 较 小 的 数据 集 容易 过 拟 合 : 此 时 训练 得 分 较 高 ， 验 证 得 分 较 低 。 

。 特定 复杂 度 的 模型 对 较 大 的 数据 集 容易 欠 拟 合 : 随 着 数据 的 增 大 , 训练 得 分 会 不 断 降低 ， 
而 验证 得 分 会 不 断 升 高 。 

。 模型 的 验证 集 得 分 永远 不 会 高 于 训练 集 得 分 : 两 条 曲线 一 直 在 靠近 ， 但 永远 不 会 交叉 。 

有 了 这 三 条 特征 ， 就 可 以 画 出 如 图 5-32 所 示 的 学 习 曲 线 。 








学 习 曲 线 示 意图 


~ 训 生 将 分 


冰 类 将 一 > 


训 绑 数据 集 规模 一 一 











图 5-32: 学 习 曲 线 原理 图 


学 习 曲 线 最 重要 的 特征 是 ， 随 着 训练 样本 数量 的 增加 ， 分 数 会 收敛 到 定 值 。 因 此 ， 一 旦 你 
的 数据 多 到 使 模型 得 分 已 经 收敛 ， 那 么 增加 更 多 的 训练 样本 也 无 济 于 事 ! 改善 模型 性 能 的 
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唯一 方法 就 是 换 模型 (通常 也 是 换 成 更 复杂 的 模型 ) 。 
Scikit-Learn 学 习 曲 线 





Scikit-Learn 计算 模型 学 习 曲 线 的 函数 非常 简单 。 下 面 来 计算 前 面 数据 集 的 二 次 多 项 式 模型 











和 九 次 多 项 式 模型 的 学 习 曲 线 (如 图 5-33 所 示 ) : 


In[17]: 
from sklearn.learning_curve import learning_curve 


fig, ax = plt.subplots(1, 2, figsize=(16, 6)) 
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1) 


for i, degree in enumerate([2, 9]): 


N, train_lc, val_lc = learning_curve(PolynomialRegression(degree), 


X, y, CV=7,， 


train_sizes=np.linspace(0.3, 1, 25)) 


ax[i].plot(N, np.mean(train_lc, 1), color='blue', label='training score') 
ax[i].plot(N, np.mean(val_lc, 1), color='red', label='validation score') 


ax[i].hlines(np.mean([train_lc[-1], val_lc[-1]]), N[0], N[-1] 
linestyle='dashed') 


ax[i].set_ylim(0, 1) 

ax[i].set xLlim(N[0], N[-1]) 

ax[i].set xlabel('training size') 
ax[i].set_ylabel('score') 

ax[i].set title('degree = {0}'.format(degree), size=14) 
ax[i] .legend(loc='best') 


，Color='gray', 





degree =2 


degree =9 











图 5-33: 低 复杂 度 ( 左 ) 和 高 复杂 度 ( 右 ) 学 习 曲线 


这 幅 图 非常 有 参考 价值 ， 因 为 它 可 以 展现 模型 得 分 随 着 训练 数据 规模 的 变化 而 变化 。 尤 其 












































当 你 的 学 习 曲 线 已 经 收敛 时 ( 即 训 练 曲线 和 验证 曲线 已 经 贴 在 一 起 )， 再 增加 训练 数据 也 


不 能 再 显著 改善 拟 合 效果 ! 这 种 情况 就 类 似 于 左 图 显示 的 二 次 多 项 式 模型 的 学 习 曲 线 。 








提高 收敛 得 分 的 唯一 办 法 就 是 换 模型 (通常 也 是 更 复杂 的 模型 )。 如 右 








图 所 示 : 采用 复杂 


度 更 高 的 模型 之 后 ， 虽 然 学 习 曲 线 的 收敛 得 分 提高 了 (对比 虚线 所 在 位 置 )， 但 是 模型 的 
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方差 也 变 大 了 (对比 训 练 得 分 与 验证 得 分 的 差异 即 可 看 出 )。 如 果 我 们 为 复杂 度 更 高 的 模 


型 继续 增加 训练 数据 ， 那 么 学 习 曲 线 最 终 也 会 收敛 。 

















为 模型 和 数据 集 画 出 学 习 曲 线 ， 可 以 帮 你 找到 正确 的 方向 ， 不 断 改进 学 习 的 效果 。 








5.3.4 ”验证 实践 : 网 格 搜索 





前 面 的 内 容 已 经 让 我 们 对 偏差 与 方差 的 均衡 有 了 直观 的 认识 ， 它 们 与 模型 的 复杂 度 和 训练 

















集 的 大 小 有 关 。 在 实际 工作 中 ， 模 型 通常 会 有 多 个 得 分 转折 点 ， 因 此 验证 











1 线 和 学 习 曲 线 

















的 图 形 会 从 二 维 曲线 变 成 多 维 曲 面 。 这 种 高 维 可 视 化 很 难 展现 ， 因 此 从 图 中 找 出 验证 得 分 








的 最 大 值 也 不 是 一 件 简单 的 事 。 

















Scikit-Learn 在 grid_search 提供 了 一 个 自动 化 工具 解决 这 个 问题 。 下 面 是 用 网 格 搜索 寻找 


pr 














最 优 多 项 式 回 归 模 型 








的 示例 。 i 

















的 次 数 的 搜索 范 
们 可 以 用 Scikit-Learn 的 GridsearchCV 元 评估 器 a 


In[18]: from sklearn.grid_search import GridSearchCV 


洒 








param_grid = {'polynomialfeatures_ degree': np.arange(21) ， 
'linearregression fit intercept': [True, Falsel], 
'linearregression normalize': [True, Falsel]} 


grid = GridSearchCV(PolynomialRegression(), param_grid, cv=7) 


请 注意 ， 和 普通 的 评估 器 一 样 ， 这 个 元 评估 器 此 时 还 没有 应 用 到 任何 数据 上 。 





方法 在 每 个 网 格 点 上 拟 合 模型 ， 并 同时 记录 每 个 点 的 得 分 : 


In[19]: grid.fit(X, y); 
模型 拟 合 完成 了 ， 这 样 就 可 以 获取 最 优 参数 了 : 


In[20]: grid.best_params_ 





Out[20]: {'linearregression fit intercept': False, 
'linearregression_ normalize': True， 
'polynomialfeatures_ degree': 4} 


最 后 ， 还 可 以 用 最 优 参数 的 模型 拟 合 数据 ， 并 画图 显示 〈 如 图 5-34 所 示 ) : 


In[21]: model = grid.best estimator_ 








plt.scatter(X.ravel(), y) 

lim = plt.axis() 

y_test = model.fit(X, y).predict(X_test) 
plt.plot(X_test.ravel(), y_test, hold=True); 
plt.axis(lim); 














、 回 归 模 型 是 否 拟 合 截 距 ， 以 及 回归 模型 是 否 需要 进行 标准 化 处 理 。 我 











调用 fit() 


网 格 搜索 提供 了 许多 参数 选项 ， 包 括 自 定义 得 分 函数 、 并 行 计算 ， 以 及 随机 化 搜索 等 
能 力 。 关 于 更 多 内 容 ， 请 参考 5.13 节 和 5.14 节 ， 或 者 参考 Scikit-Learn 的 网 格 搜 索 文档 








http://scikit-learn.org/stable/modules/grid_search.html )ie 




















图 5-34: 自动 化 网 格 搜索 的 最 优 拟 合 模型 


5.3.5 “小 结 


本 市 首先 探索 了 模型 验证 与 超 参 数 优化 的 概念 ， 重 点 介绍 了 偏差 与 方差 均衡 的 概念 ， 以 及 
de re de et 仿 证 集 或 交叉 
检验 方法 调整 参数 至 关 重 要 ， 这 样 做 可 以 避免 较 复 杂 / 灵活 模型 引起 的 过 拟 合 问 题 。 


接 下 来 将 介绍 一 些 常 用 模型 的 具体 细节 、 可 用 的 优化 方法 ， 以 及 自由 参数 (free parameter) 
对 模型 复杂 度 的 影响 。 在 学 习 新 的 机 器 学 习 方 法 时 ， 请 时 刻 牢记 本 市 介绍 的 内 容 ! 


5.4 特征 工程 


上 一 节 虽 然 介 绍 了 机 器 学 习 的 基本 理念 ， 但 是 所 有 示例 都 假设 已 经 拥有 一 个 干净 的 
[n_samples，n_features] 特征 矩阵 。 其 实在 现实 工作 中 ， 数据 很 少 会 这 么 干净 。 因 
此 ， 机 器 学 习 实 践 中 更 重要 的 步骤 之 一 是 特征 工程 (feature engineering) 一 一 找到 与 问题 
有 关 的 任何 信息 ， 把 它们 转换 成 特征 矩阵 的 数值 。 

本 节 将 介 绍 特征 工程 的 一 些 常 见 示 例 : 表示 分 类 数据 的 特征 、 表 示 文 本 的 特征 和 表示 图 像 


的 特征 。 另 外 ， 还 会 介绍 提高 模型 复杂 度 的 衍生 特征 和 处 理 缺 失 数据 的 填充 方法 。 这 个 过 
程 通常 被 称 为 向 量化 ， 因 为 它 把 任意 格式 的 数据 转换 成 具有 良好 特性 的 向 量 形 式 。 


5.4.1 分 类 特征 


一 种 常见 的 非 数 值 数据 类 型 是 分 类 数据 。 例 如 ， 浏 览 房 屋 数 据 的 时 候 ， 除 了 看 到 “房价 ” 
(price) 和 “面积 ”(rooms) 之 类 的 数值 特征 ， 还 会 有 “地 点 ”(neighborhood) 信息 ， 数 
据 可 能 像 这 样 : 
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In[1]: data = [ 
{'price': 850000, 'rooms': 4, 'neighborhood': 'Queen Anne'}, 
{'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'}, 
{'price': 650000, 'rooms': 3, 'neighborhood': 'Wallingford'}, 
{'price': 600000, 'rooms': 2, 'neighborhood': 'Fremont'} 








你 可 能 会 把 分 类 特征 用 映射 关系 编码 成 整数 : 
In[2]: {'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3}; 


但 是 ， 在 Scikit-Learn 中 这 么 做 并 不 是 一 个 好 办 法 : 这 个 程序 包 的 所 有 模块 都 有 一 个 基本 
假设 ， 那 就 是 数值 特征 可 以 反映 代数 量 (algebraic quantities)。 因 此 ， 这 样 映射 编码 可 能 
会 让 人 觉得 存在 Queen A4nne < Fremont < Wallingford， 其 至 还 有 Wallingford - Queen Anne = 
Fremont， 这 显然 是 没有 意义 的 。 

面 对 这 种 情况 ， 常 用 的 解决 方法 是 独 热 编码 。 它 可 以 有 效 增 加 额外 的 列 ， 让 0 和 1 出 现在 
对 应 的 列 分 别 表示 每 个 分 类 值 有 或 无 。 当 你 的 数据 是 像 上 面 那 样 的 字典 列表 时 ， 用 Scikit- 
Learn 的 DictVectorizer 类 就 可 以 实现 : 









































In[3]: from sklearn.feature extraction import DictVectorizer 
vec = DictVectorizer(sparse=False, dtype=int) 
vec.fit_ transform(data) 


Out[3]: array([[ 0， 1 0，850000 ， 4] ， 
1 0， 0，700000 ， 3]， 
[ 0， 0， 1，650000， 3]， 

[ 1 0， 0, 600000, 2]], dtype=int64) 








你 会 发 现 ，neighborhood 字段 转换 成 三 列 来 表示 三 个 地 点 标签 ， 每 一 行 中 用 1 所 在 的 列 对 
应 一 个 地 点 。 当 这 些 分 类 特征 编码 之 后 ， 你 就 可 以 和 之 前 一 样 拟 合 Scikit-Learn 模型 了 : 


如 果 要 看 每 一 列 的 含义 ， 可 以 用 下 面 的 代码 查看 特征 名 称 : 


In[4]: vec.get_ feature_names() 

















Out[4]: ['neighborhood=Fremont', 
'neighborhood=Queen Anne', 
'neighborhood=Wallingford', 
'price', 

'rooms'] 


但 这 种 方法 也 有 一 个 显著 的 缺陷 : 如 果 你 的 分 类 特征 有 许多 枚 举 值 ， 那 么 数据 集 的 维度 就 
会 急剧 增加 。 然 而 ， 由 于 被 编码 的 数据 中 有 许多 0， 因 此 用 稀 玻 矩阵 表示 会 非常 高 效 ， 


In[5]: vec = DictVectorizer(sparse=True, dtype=int) 
vec.fit_ transform(data) 





Out[5]: <4x5 sparse matrix of type '<class 'numpy.int64'>' 
with 12 stored elements in Compressed Sparse Row format> 


在 拟 合 和 评估 模型 时 ，Scikit-Learn 的 许多 (并非 所 有 ) 评估 器 都 支持 稀 中 和 矩阵 输入 。 


sklearn.preprocessing.OneHotEncoder 和 sklearn.feature_extraction.FeatureHasher 是 


Scikit-Learn 另外 两 个 为 分 类 特征 编码 的 工具 。 
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5.4.2 文本 特征 

另 一 种 常见 的 特征 工程 需求 是 将 文本 转换 成 一 组 数值 。 例 如 ， 绝 大 多 数 社交 媒体 数据 的 自 
动 化 采集 ， 都 是 依靠 将 文本 编码 成 数字 的 技术 手段 。 数 据 采集 最 简单 的 编码 方法 之 一 就 是 
单词 统计 : 给 你 几 个 文本 ， 让 你 统计 每 个 词 出 现 的 次 数 ， 然 后 放 到 表格 中 。 


例如 下 面 三 个 短语 : 






































In[6]: sample = ['problem of evil', 
'evil queen', 
'horizon problem'] 


面 对 单词 统计 的 数据 向 量化 问题 时 ， 可 以 创建 一 个 列 来 表示 单词 “problem”、 单 词 “evil” 
和 单词 “horizon” 等 。 虽 然 手 动 做 也 可 以 ， 但 是 用 Scikit-Learn 的 CountVectorizer 更 是 可 
以 轻松 实现 : 


























In[7]: from sklearn.feature_extraction.text import CountVectorizer 


vec = CountVectorizer() 
X = vec.fit_ transform(sample) 
X 


Out[7]: <3x5 sparse matrix of type '<class 'numpy.int64'>"' 
with 7 stored elements in Compressed Sparse Row format> 








结果 是 一 个 稀 玻 和 矩阵， 里 面 记录 了 每 个 短语 中 每 个 单词 的 出 现 次 数 。 如 果 用 带 列 标签 的 


DataFrame 来 表示 这 个 稀 玻 矩阵 就 更 方便 了 : 


In[8]: import pandas as pd 
pd.DataFrame(X.toarray(), columns=vec.get feature_names()) 


Out[8]: evil horizon of probLem queen 
0 1 0 1 1 0 
1 1 0 0 0 1 
2 0 1 0 1 0 


不 过 这 种 统计 方法 也 有 一 些 问 题 : 原始 的 单词 统计 会 让 一 些 常 用 词 聚 集 太 高 的 权重 ， 在 分 
类 算法 中 这 样 并 不 合理 。 解 决 这 个 问题 的 方法 就 是 通过 TF-IDF (term frequency-inverse 
document frequency， 词 频 逆 文档 频率 ) ， 通 过 单词 在 文档 中 出 现 的 频率 来 衡量 其 权重 Ra 
算 这 些 特征 的 语法 和 之 前 的 示例 类 似 : 





























In[9]: from sklearn.feature extraction.text import TfidfVectorizer 
vec = TfidfVectorizer() 
X = vec.fit transform(sample) 
pd.DataFrame(X.toarray(), columns=vec.get feature_names()) 


Out[9]: evil horizon of problem queen 
0 0.517856 0.000000 0.680919 0.517856 0.000000 
1 0.605349 0.000000 0.000000 0.000000 0.795961 
2 0.000000 0.795961 0.000000 0.605349 0.000000 








注 3: IDF 的 大 小 与 一 个 词 的 常见 程度 成 反比 。 一 一 译 者 注 


t 
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关于 TF-IDF 分 类 问题 的 示例 ， 请 参见 5.5 市。 


5.4.3 图像 特征 

机 器 学 习 还 有 一 种 常见 需求 ， 那 就 是 对 图 像 进行 编码 。 我 们 在 5.2 节 处 理 手写 数字 图 像 时 
使 用 的 方法 ， 是 最 简单 的 图 像 编码 方法 : 用 像素 表示 图 像 。 但 是 在 其 他 类 型 的 任务 中 ， 这 
类 方法 可 能 不 太 合适 。 
虽然 完整 地 介绍 图 像 特 征 的 提取 技术 超出 了 本 章 的 范围 ， 但 是 你 可 以 在 Scikit-Image 项 目 
(http://scikit-image.org) 中 找到 许多 标准 方法 的 高 品质 实现 。 关 于 同时 使 用 Scikit-Learn 和 
Scikit-Image 的 示例 ， 请 参见 5.14 市。 


5.4.4 衍生 特征 

还 有 一 种 有 用 的 特征 是 输入 特征 经 过 数学 变换 衍生 出 来 的 新 特征 。 我 们 在 5.3 节 从 输入 数 
据 中 构造 多 项 式 特征 时 ， 曾 经 见 过 这 类 特征 。 我 们 发 现 将 一 个 线性 回归 转换 成 多 项 式 回 归 
时 ， 并 不 是 通过 改变 模型 来 实现 ， 而 是 通过 改变 输入 数据 ! 这 种 处 理 方式 有 时 被 称 为 基 范 
数 回归 (basis function regression) ， 详 细 请 参见 5.6 节 。 

例如 ， 下 面 的 数据 显然 不 能 用 一 条 直线 描述 (如 图 5-35 所 示 ) : 


In[10]: %matplotlib inline 
import numpy as np 
import matplotlib.pyplot as plt 


















































x = np.array([1, 2, 3, 4, 5]) 
y = np.array([4, 2, 1, 3, 7]) 
plt.scatter(x, y); 





© PN Ww pp ou ma J 串 
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5-35: 不 能 用 直线 拟 合 的 数据 


但 是 我 们 仍然 用 LinearRegression 拟 合 出 一 条 直线 ， 并 获得 直线 的 最 优 解 (如 图 5-36 
所 示 ) : 
In[11]: from sklearn.linear_model import LinearRegression 


X = x[:, np.newaxis] 
model = LinearRegression().fit(X, y) 








A 
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yfit = modeL.predict(X) 
plt.scatter(x, y) 
plt.plot(x, yfit); 














图 5-36: 效果 不 好 的 拟 合 直线 


很 显然 ， 我 们 需要 用 一 个 更 复杂 的 模型 来 描述 x 与 的 关系 。 可 以 对 数据 进行 变换 ， 并 增 
加 额外 的 特征 来 提升 模型 的 复杂 度 。 例 如 ， 可 以 在 数据 中 增加 多 项 式 特 征 ， 
In[12]: from sklearn.preprocessing import PolynomialFeatures 


poly = PolynomialFeatures(degree=3, include_bias=False) 
X2 = poLy.fit _ transform(X) 


print(X2) 
El. 1. 1.] 
.< 4. 8.] 
[ 3. 9. 27.] 
[ 4 16. 64.] 
[ 5 25. 125.]] 








在 衍生 特征 矩阵 中 ， 第 1 列表 示 x， 第 2 列表 示 x， 第 3 列表 示 x*。 通 过 对 这 个 扩展 的 输 
入 矩阵 计算 线性 回归 ， 就 可 以 获得 更 接近 原始 数据 的 结果 了 (如 图 5-37 所 示 ) : 


In[13]: model = LinearRegression().fit(X2, y) 
yfit = modeL.predict(X2) 
plt.scatter(x, y) 
plt.plot(x, yfit); 

















. 


0 要 2 3 4 5 6 


图 5-37: 对 数据 衍生 的 多 项 式 特征 线性 拟 合 的 结果 
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这 种 不 通过 改变 模型 ， 而 是 通过 变换 输入 来 改善 模型 效果 的 理念 ， 正 是 许多 更 强大 的 机 器 
学 习 方 法 的 基础 。5.6 节 介 绍 基 函数 回归 时 将 详细 介绍 这 个 理念 ， 它 通常 被 认为 是 强大 的 
核 方 法 (kernel method，5.7 节 将 详细 介绍 ) 技术 的 驱动 力 之 一 。 


5.4.5 ”缺失 值 填充 


特征 工程 中 还 有 一 种 常见 需求 是 处 理 缺 失 值 。 我 们 在 3.5 市 介绍 过 DataFrame 的 缺失 值 处 
时 方法 ， 也 看 到 了 NaN 通常 用 来 表示 缺失 值 。 例 如 ， 有 如 下 一 个 数据 集 : 


In[14]: from numpy import nan 
























































YH 





X = np.array([[ nan，0， 3 ] 
[ .35 Ty 9 ]， 
3 5 2 5] 
[ 4， nan, 6 ]， 
[8» 8 ££]]) 


y = np.array([14, 16, -1, 8, -5]) 


当 将 一 个 普通 的 机 器 学 习 模型 应 用 到 这 份 数 据 时 ， 首 先 需 要 用 适当 的 值 替 换 这 些 缺 失 数 
据 。 这 个 操作 被 称 为 缺失 值 填充 ， 相 应 的 策略 很 多 ， 有 的 简单 〈 例 如 用 列 均值 替换 缺失 
值 )， 有 的 复杂 (例如 用 和 矩阵 填充 或 其 他 模型 来 处 理 缺 失 值 )。 


复杂 方法 在 不 同 的 应 用 中 各 不 相同 ， 这 里 不 再 深入 介绍 。 对 于 一 般 的 填充 方法 ， 如 均值 、 
中 位 数 、 众 数 ，Scikit-Learn 有 Imputer 类 可 以 实现 : 


In[15]: from sklearn.preprocessing import Imputer 
imp = Imputer(strategy='mean') 
X2 = imp.fit transform(X) 
X2 


























Out[15]: array([ 93 了 
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:] 
:] 
:] 
*] 
.]]) 


我 们 会 发 现 ， 结 果 和 矩阵 中 的 两 处 缺失 值 都 被 所 在 列 剩余 数据 的 均值 蔡 代 了 。 这 个 被 填充 的 
数据 就 可 以 直接 放 到 评估 器 里 训练 了 ， 例 如 LinearRegression 评估 器 : 


In[16]: model = LinearRegression().fit(X2, y) 
model.predict(X2) 





Out[16]: 
array([ 13.14869292, 14.3784627 ， -1.15539732, 10.96606197, -5.33782027]) 


5.4.6 ”特征 管道 

如 果 经 常 需要 手动 应 用 前 文 介绍 的 任意 一 种 方法 ， 你 很 快 就 会 感到 厌倦 ， 尤 其 是 当 你 需要 
将 多 个 步骤 串 起 来 使 用 时 。 例 如 ， 我 们 可 能 需要 对 一 些 数据 做 如 下 操作 。 

(1) 用 均值 填充 缺失 值 。 

(2) 将 衍生 特征 转换 为 二 次 方 。 
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(3) 拟 合 线性 回归 模型 。 
为 了 实现 这 种 管道 处 理 过 程 ，Scikit-Learn 提供 了 一 个 管道 对 象 ， 如 下 所 示 : 


In[17]: from sklearn.pipeline import make_pipeline 








model = make_pipeline(Imputer(strategy='mean'), 
PolynomialFeatures(degree=2), 
LinearRegression()) 


这 个 管道 看 起 来 就 像 一 个 标准 的 Scikit-Learn 对 象 ， 可 以 对 任何 输入 数据 进行 所 有 步骤 的 
处 理 : 
In[18]: model.fit(X, y) # 和 上 面 一 样 ，X 带 有 缺失 值 


print(y) 
print(model.predict(X)) 



































[14 16 -1 8 -5] 

[A 
这 样 的 话 ， 所 有 的 步骤 都 会 自动 完成 。 请 注意 ， 出 于 简化 演示 考虑 ， 将 模型 应 用 到 已 经 训 
练 过 的 数据 上 ， 模 型 能 够 非常 完美 地 预测 结果 (详情 请 参见 5.7 节 )。 
关于 Scikit-Learn 管道 实战 的 更 多 示例 ， 请 参考 下 面 的 朴素 贝 叶 斯 分 类 和 5.6 市 、5.7 节 的 
内 容 。 


5.5 专题 : 朴素 贝 叶 斯 分 类 


前 面 四 节 简 单 介 绍 了 机 器 学 习 的 基本 概念 。 从 本 节 开 始 ， 将 详细 介绍 一 些 经 典 的 有 监督 和 
无 监督 学 习 算 法 ， 先 从 朴素 贝 叶 斯 分 类 开始 。 

朴素 贝 叶 斯 模型 是 一 组 非常 简单 快速 的 分 类 算法 ， 通 常 适用 于 维度 非常 高 的 数据 集 。 因 为 
运行 速度 快 ， 而 且 可 调 参 数 少 ， 因 此 非常 适合 为 分 类 问题 提供 快速 粗糙 的 基本 方案 。 本 市 
重点 介绍 朴素 贝 叶 斯 分 类 器 (naive Bayes classifiers) 的 工作 原理 ， 并 通过 一 些 示例 演示 村 
素 贝 叶 斯 分 类 器 在 经 典 数据 集 上 的 应 用 。 


5.5.1 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 器 建立 在 贝 叶 斯 分 类 方法 的 基础 上 ， 其 数学 基础 是 贝 叶 斯 定理 (Bayes’s 
theorem ) 一 个 描述 统计 量 条 件 概 率 关系 的 公式 。 在 贝 叶 斯 分 类 中 ， 我 们 希望 确定 一 个 
具有 某 些 特征 的 样本 属于 某 类 标签 的 概率 ， 通常 记 为 P CL | 特征 )。 贝 叶 斯 定理 告诉 我 们 ， 
可 以 直接 用 下 面 的 公式 计算 这 个 概率 : 
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P( 特 征 1 DP(D) 

P( 特 征 ) 
假如 需要 确定 两 种 标签 ， 定 义 为 Li 和 三 ， 一 种 方法 就 是 计算 这 两 个 标签 的 后 验 概率 的 
比值 : 





P(L1 特征) = 
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PC 特征) _ P( 特 征 1L1) PC) 
P(L21 特征 ) ”PP( 特 征 1L3) P(Ls) 


现在 需要 一 种 模型 ， 帮 我 们 计算 每 个 标签 的 P (特征 | 二 。 这 种 模型 被 称 为 生成 模型 ， 因 
为 它 可 以 训练 出 生成 输入 数据 的 假设 随机 过 程 (或 称 为 概率 分 布 )。 为 每 种 标签 设置 生成 
模型 是 贝 叶 斯 分 类 器 训练 过 程 的 主要 部 分 。 虽 然 这 个 训练 步骤 通常 很 难 做 ， 但 是 我 们 可 以 
通过 对 模型 进行 随机 分 布 的 假设 ， 来 简化 训练 工作 。 
之 所 以 称 为 “朴素 ”或 “朴素 贝 叶 斯 *"， 是 因为 如 果 对 每 种 标签 的 生成 模型 进行 非常 简单 
的 假设 ， 就 能 找到 每 种 类 型 生成 模型 的 近似 解 ， 然 后 就 可 以 使 用 贝 叶 斯 分 类 。 不 同类 型 的 
杆 素 贝 叶 斯 分 类 器 是 由 对 数据 的 不 同 假设 决定 的 ， 下 面 将 介绍 一 些 示 例 来 进行 演示 。 首 先 
导入 需要 用 的 程序 库 : 

In[1]: %matplotlib inline 

import numpy as np 


import matplotlib.pyplot as plt 
import seaborn as sns; sns.set() 


5.5.2 高 斯 朴素 贝 叶 斯 


最 容易 理解 的 朴素 贝 叶 斯 分 类 器 可 能 就 是 高 斯 朴素 贝 叶 斯 (Gaussian naive Bayes) 了 ， 
这 个 分 类 器 假设 每 个 标签 的 数据 都 服从 简单 的 高 斯 分 布 。 假 如 你 有 下 面 的 数据 (如 攻 
5-38 所 示 ) : 

In[2]: from sklearn.datasets import make_blobs 


X, y = make_blobs(100, 2, centers=2, random_state=2, cluster_std=1.5) 
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='RdBu'); 
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5-38: 高 斯 朴素 贝 叶 斯 分 类 数据 
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一 种 快速 创建 简易 模型 的 方法 就 是 假设 数据 服从 高 斯 分 布 ， 且 变量 无 协 方差 (no 
covariance， 指 线性 无 关 )。 只 要 找 出 每 个 标签 的 所 有 样本 点 均值 和 标准 差 ， 再 定义 一 个 高 
斯 分 布 ， 就 可 以 拟 合 模型 了 。 这 个 简单 的 高 斯 假设 分 类 的 结果 如 图 5-39 所 示 。 











Naive Bayes Model 


5 














5-39: 高 斯 朴素 贝 叶 斯 模型 可 视 化 图 


图 中 的 椭圆 曲线 表示 每 个 标签 的 高 斯 生成 模型 ， 越 靠近 椭圆 中 心 的 可 能 性 越 大 。 通 过 每 种 
类 型 的 生成 模型 ， 可 以 计算 出 任意 数据 点 的 似 然 估计 (likelihood) P( 特征 |L)， 然 后 根据 
贝 叶 斯 定理 计算 出 后 验 概率 比值 ， 从 而 确定 每 个 数据 点 可 能 性 最 大 的 标签 。 


该 步骤 在 Scikit-Learn 的 sklearn.naive_bayes.GaussianNB 评估 器 中 实现 : 






































In[3]: from sklearn.naive_bayes import GaussianNB 
model = GaussianNB() 
model.fit(X, y); 


现在 生成 一 些 新 数据 来 预测 标签 : 


In[4]: rng = np.random.RandomState(0) 
Xnew = [-6, -14] + [14, 18] * rng.rand(2000, 2) 
ynew = model.predict(Xnew) 


可 以 将 这 些 新 数据 画 出 来 ， 看 看 决策 边界 的 位 置 (如 图 5-40 所 示 ) : 


In[5]: plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='RdBu') 
lim = plt.axis() 
plt.scatter(Xnew[:, 0], Xnew[:, 1], c=ynew, s=20, cmap='RdBu', alpha=0.1) 
plt.axis(lim); 
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5-40: 高 斯 朴素 贝 叶 斯 分 类 可 视 化 图 

可 以 在 分 类 结果 中 看 到 一 条 稍 显 弯曲 的 边界 通常 ， 高 斯 朴素 贝 叶 斯 的 边界 是 二 次 方 
曲线 。 

贝 叶 斯 主义 (Bayesian formalism) 的 一 个 优质 特性 是 它 天 生 支 持 概率 分 类 ， 我 们 可 以 用 
predict_proba 方法 计算 样本 属于 某 个 标签 的 概率 : 


In[6]: yprob = model.predict proba(Xnew) 
yprob[-8:].round(2) 












































Out[6]: array([[ 0.89， 0.11] ， 
[本 
Ee Ol]s 
[1. ，0. ]， 
[和 0. ]， 
| 0. ]， 
[Wo ea a 
[ 0.15， 0.85]]) 





这 个 数组 分 别 给 出 了 前 两 个 标签 的 后 验 概率 。 如 果 你 需要 评估 分 类 器 的 不 确定 性 ， 那 么 这 
类 贝 叶 斯 方法 非常 有 用 。 

当然 ， 由 于 分 类 的 最 终 效 果 只 能 依赖 于 一 开始 的 模型 假设 ， 因 此 高 斯 朴素 贝 叶 斯 经 常 得 不 
到 非常 好 的 结果 。 但 是 ， 在 许多 场景 中 ， 尤 其 是 特征 较 多 的 时 候 ， 这 种 假设 并 不 妨碍 高 斯 
朴素 贝 叶 斯 成 为 一 种 有 用 的 方法 。 


5.5.3 多 项 式 朴素 贝 叶 斯 
前 面 介绍 的 高 斯 假设 并 不 意味 着 每 个 标签 的 生成 模型 只 能 用 这 一 种 假设 。 还 有 一 种 常用 的 
假设 是 多 项 式 朴素 贝 叶 斯 (multinomial naive Bayes) ， 它 假设 特征 是 由 一 个 简单 多 项 式 分 
布 生成 的 。 多 项 分 布 可 以 描述 各 种 类 型 样本 出 现 次 数 的 概率 ， 因 此 多 项 式 朴 素 贝 叶 斯 非常 
适合 用 于 描述 出 现 次 数 或 者 出 现 次 数 比例 的 特征 。 
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这 个 理念 和 前 面 介绍 的 一 样 ， 只 不 过 模型 数据 的 分 布 不 再 是 高 斯 分 布 ， 而 是 用 多 项 式 分 布 


代 赫 而 已 。 
1. 案例 : 文本 分 类 


多 项 式 朴素 贝 叶 斯 通常 用 于 文本 分 类 ， 其 特征 都 是 指 竺 分 类 文本 的 单词 出 现 次 数 或 者 频 
次 。5.4 节 介 绍 过 文本 特征 提取 的 方法 ， 这 里 用 20 个 网 络 新 闻 组 语料库 (20 Newsgroups 
多 项 式 村 素 贝 叶 斯 对 这 





corpus， 约 20 000 篇 新 闻 ) 的 单词 8 
些 新 闻 组 进行 分 类 。 





8 现 次 数 作为 特征 ， 演 示 如 何 月 


首先 ， 下 载 数据 并 看 看 新 闻 组 的 名 字 : 


In[7]: from sklearn.datasets import fetch 20newsgroups 


data = fetch 20newsgrou 
data.target_names 


Out[7]: ['alt.atheism', 
"Comp .graphics ' ， 
"Comp .os.ms-windows .m 


ps() 


isc ' ， 


"Comp .sys.tibm.pc.hardware ' ， 
"comp .sys.mac.hardware ' ， 


"Comp .windows.x' ， 
'misc.forsale', 
rec.autos ' ， 
rec.motorcycles', 
rec.sport.baseball', 
rec.sport.hockey', 
sci.crypt', 
sci.electronics', 
sci.med', 
sci.space', 
'soc.religion.christi 
'talk.politics.guns', 
'talk.politics.mideas 
'talk.politics.misc', 
'talk.religion.misc'] 





an', 


t', 


为 了 简化 演示 过 程 ， 只 选择 四 类 新 闻 ， 下 载 训 练 集 和 测试 集 : 


In[8]: 


categories = ['talk.religion.misc', 'soc.religion.christian', 'sci.space', 


'comp.graphics'] 


train = fetch 20newsgroups(subset='train', categories=categories) 
test = fetch 20newsgroups(subset='test', categories=categories) 














选 其 中 一 篇 新 闻 看 看 : 
In[9]: print(train.data[5]) 


From: dmcgee@uluhe.soest.hawai 
Subject: Federal Hearing 
Originator: dmcgee@uluhe 


i.edyu (Don McGee) 


Organization: School of Ocean and Earth Science and Technology 


Distribution: usa 
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Lines: 10 


Fact or rumor....? Madalyn Murray O'Hare an atheist who eliminated the 

use of the bible reading and prayer in public schools 15 years ago is now 
going to appear before the FCC with a petition to stop the reading of the 
Gospel on the airways of America. And she is also campaigning to remove 
Christmas programs, songs, etc from the public schools. If it is true 

then mail to Federal Communications Commission 1919 H Street Washington DC 
20054 expressing your opposition to her request. Reference Petition number 
2493 . 





tt 





为 了 让 这 些 数据 能 用 于 机 器 学 习 ， 需 要 将 每 个 字符 串 的 内 容 转 换 成 数值 向 量 。 可 以 创建 一 


个 管 


道 ， 将 TF-IDF 向 量化 方法 (详情 请 参见 5.4 节 ) 与 多 项 式 朴素 贝 叶 斯 分 类 器 组 合 在 


一 起 : 


In[10]: from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.naive_ bayes import MultinomialNB 
from sklearn.pipeline import make_pipeline 


model = make_pipeline(TfidfVectorizer(), MultinomialNB()) 





通过 这 个 管道 ， 就 可 以 将 模型 应 用 到 训练 数据 上 ， 预 测 出 每 个 测试 数据 的 标签 : 


In[11]: model.fit(train.data, train.target) 
labels = model.predict(test.data) 


这 样 就 得 到 每 个 测试 数据 的 预测 标签 ， 可 以 进一步 评估 评估 器 的 性 能 了 。 例 如 ， 用 混淆 甜 
阵 统计 测试 数据 的 真实 标签 与 预测 标签 的 结果 (如 图 5-41 所 示 ) : 


In[12]: 

from sklearn.metrics import confusion matrix 

mat = confusion matrix(test.target, labels) 

sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False, 
xticklabels=train.target_ names, yticklabels=train.target_names) 

plt.xlabel('true label') 

plt.ylabel('predicted label'); 


从 图 中 可 以 明显 看 出 ， 虽 然 用 如 此 简单 的 分 类 器 可 以 很 好 地 区 分 关于 字 宙 的 新 闻 和 关于 计 
算 机 的 新 闻 ， 但 是 宗教 新 闻 和 基督 教 新 闻 的 区 分 效果 却 不 太 好 。 可 能 是 这 两 个 领域 本 身 就 
容易 令 人 混 清 1 

但 现在 我 们 有 一 个 可 以 对 任何 字符 串 进行 分 类 的 工具 了 ， 只 要 用 管道 的 predtct() 方法 就 


可 以 预测 。 下 面 的 函数 可 以 快速 返回 字符 串 的 预测 结果 : 



































In[13]: def predict_category(s, train=train, model=model): 
pred = model.predict([s]) 
return train.target names[pred[0]] 











comp graphics 


predicted label 


soc religion_christian 





talk religion.misc 0 0 0 48 


sci.space 


comp graphics 
soc religion.christian 
talk_religion.misc 


true label 








图 5-41: 多 项 式 朴 素 贝 叶 斯 文本 分 类 器 混淆 和 矩阵 
下 面试 试 模型 预测 效 


In[14]: predict_category('sending a payload to the ISS') 




















7 








尊 





Out[14]: 'sci.space’ 

In[15]: predict_category('discussing islam vs atheism') 
Out[15]: 'soc.religion.christian' 

In[16]: predict_category('determining the screen resolution') 
Out[16]: "comp.graphics' 


虽然 这 个 分 类 器 不 会 比 直接 用 字符 串 内 单词 (加权 的 ) 频次 构建 的 简易 概率 模型 更 复杂 ， 
但 是 它 的 分 类 效果 却 非常 好 。 由 此 可 见 ， 即 使 是 一 个 非常 简单 的 算法 ， 只 要 能 合理 利用 并 
进行 大 量 高 维 数据 训练 ， 就 可 以 获得 意 想 不 到 的 效果 。 


5.5.4 朴素 贝 叶 斯 的 应 用 场景 


由 于 朴素 贝 叶 斯 分 类 器 对 数据 有 严格 的 假设 ， 因 此 它 的 训练 效果 通常 比 复杂 模型 的 差 。 其 
优点 主要 体现 在 以 下 四 个 方面 。 


。 训练 和 预测 的 速度 非常 快 。 

。 直接 使 用 概率 预测 。 

。 通常 很 容易 解释 。 

。 可 调 参 数 (如 果 有 的 话 ) 非常 少 。 


















































机 器 学 习 | 339 


这 些 优点 使 得 朴素 贝 叶 斯 分 类 器 通常 很 适合 作为 分 类 的 初始 解 。 如 果 分 类 效果 请 足 要 求 ， 
那么 万 事 大 吉 ， 你 获得 了 一 个 非常 快速 且 容 易 解释 的 分 类 器 。 但 如 果 分 类 效果 不 够 好 ， 那 
么 你 可 以 尝试 更 复杂 的 分 类 模型 ， 与 朴素 贝 叶 斯 分 类 器 的 分 类 效果 进行 对 比 ， 看 看 复杂 模 
型 的 分 类 效果 究竟 如 何 。 

朴素 贝 叶 斯 分 类 器 非常 适合 用 于 以 下 应 用 场景 。 


。 假设 分 布 国 数 与 数据 匹配 《实际 中 很 少见 ) 。 
。 各 种 类 型 的 区 分 度 很 高 ， 模 型 复杂 度 不 重要 。 
。 非常 高 维度 的 数据 ， 模 型 复杂 度 不 重要 。 


后 面 两 条 看 似 不 同 ， 其 实 彼此 相关 : 随 着 数据 集 维度 的 增加 ， 任 何 两 点 都 不 太 可 能 逐渐 靠 
近 (毕竟 它们 得 在 每 一 个 维度 上 都 足够 接近 才 行 )。 也 就 是 说 ， 在 新 维度 会 增加 样本 数据 
信息 量 的 假设 条 件 下 ， 高 维 数据 的 得 中 心 点 比 低 维 数据 的 徐 中 心 点 更 分 散 。 因 此 ， 随 着 数 
据 维度 不 断 增加 ， 像 朴素 贝 叶 斯 这 样 的 简单 分 类 器 的 分 类 效果 会 和 复杂 分 类 器 一 样 ， 甚 至 
更 好 一 一 只 要 你 有 是 够 的 数据 ， 简 单 的 模型 也 可 以 非常 强大 。 


5.6 专题 : 线性 回归 


如 果 说 朴素 贝 叶 斯 〈 详 情 请 参见 5.5 节 ) 是 解决 分 类 任务 的 好 起 点 ， 那 么 线性 回归 模型 就 
是 解决 回归 任务 的 好 起 点 。 这 些 模型 之 所 以 大 受 欢迎 ， 是 因为 它们 的 拟 合 速度 非常 快 ， 而 
且 很 容易 解释 。 你 可 能 对 线性 回归 模型 最 简单 的 形式 〈 即 对 数据 拟 合 一 条 直线 ) 已 经 很 熟 
悉 了 ， 不 过 经 过 扩展 ， 这 些 模 型 可 以 对 更 复杂 的 数据 行为 进行 建 模 。 

本 市 将 先 快速 直观 地 介绍 线性 回归 问题 背后 的 数学 基础 知识 ， 然 后 介绍 如 何 对 线性 回归 模 
型 进行 一 般 化 处 理 ， 使 其 能 够 解决 数据 中 更 复杂 的 模式 。 首 先导 入 常用 的 程序 库 : 

In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 


import seaborn as sns; sns.set() 
import numpy as np 


5.6.1 简单 线性 回归 
首先 来 介绍 最 广为人知 的 线性 回归 模型 一 一 将 数据 拟 合成 一 条 直线 。 直 线 拟 合 的 模型 方程 
为 y=ax+b， 其 中 4a 是 直线 斜率 ,，b 是 直线 截 距 。 


看 看 下 面 的 数据 ， 它 们 是 从 斜率 为 2、 截 距 为 -5 的 直线 中 抽取 的 散 点 (如 图 5-42 所 示 ) : 


In[2]: rng = np.random.RandomState(1) 
x = 10 * rng.rand(50) 
y=2*x -5+ rng.randn(50) 
plt.scatter(x, y); 
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5-42: 线性 回归 数据 
可 以 用 Scikit-Learn 的 LinearRegression 评估 器 来 拟 合 数据 ， 并 获得 最 佳 拟 合 直线 (如 图 
5-43 所 示 ) : 


In[3]: from skLearn.Linear_modeL import LinearRegression 
model = LinearRegression(fit intercept=True) 





model.fit(x[:, np.newaxis], y) 


xfit 
yfit 


np.linspace(0, 10, 1000) 
model.predict(xfit[:, np.newaxis]) 


plt.scatter(x, y) 
plt.plot(xfit, yfit); 





6 














5-43: 线性 回归 模型 
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数据 的 斜率 和 截 距 都 在 模型 的 拟 合 参数 中 ，Scikit-Learn 通常 会 在 参数 后 面 加 一 条 下 划 线 ， 
即 coef_ 和 intercept_: 


In[4]: print("ModeL slope: ", model.coef_[0]) 
print("Model intercept:", model.intercept ) 


Model slope: 2.02720881036 
Model intercept: -4.99857708555 





可 以 看 到 ， 拟 合 结果 与 真实 值 非常 接近 ， 这 正 是 我 们 想 要 的 。 
然而 ，LinearRegression 评估 器 能 做 的 可 远 不 止 这些 一 一 除了 简单 的 直线 拟 合 ， 它 还 可 以 
处 理 多 维度 的 线性 回归 模型 ; 

=Go 二 CIXI 十 GoX2 十 
里 面 有 多 个 x* 变量。 从 几何 学 的 角度 看 ， 这 个 模型 是 拟 合 三 维 空间 中 的 一 个 平面 ， 或 者 是 
为 更 高 维度 的 数据 点 拟 合 一 个 超 平 本 
虽然 这 类 回归 模型 的 多 维特 性 使 得 它们 很 难 可 视 化 ， 但 是 我 们 可 以 用 NumpPy 的 矩阵 乘法 
运算 符 创 建 一 些 数据 ， 从 而 演示 这 类 拟 合 过 程 : 


In[5]: 


























o 




















= np.random.RandomState(1) 
10 * rng.rand(100, 3) 
0.5 + Np.dot(X, [1.5, -2., 1.]) 


rn 
X 
3 


1 1 


model.fit(X, y) 
print(model.intercept ) 
print(model.coef_ ) 




















其 中 变量 是 由 3 个 随机 的 x 变量 线性 组 合 而 成 ， 线 性 回归 模型 还 原 了 方程 的 系数 。 
通过 这 种 方式 ， 就 可 以 用 一 个 LinearRegression 评估 器 拟 合 数据 的 回归 直线 、 平 面 和 超 平 
看 了 。 虽 然 这 种 方法 还 是 有 局 限 性 ， 因 为 它 将 变量 限制 在 了 线性 关系 上 ， 但 是 不 用 担心 ， 
还 有 其 他 方法 。 


5.6.2” 基 函数 回归 
你 可 以 通过 基 函 数 对 原始 数据 进行 变换 ， 从 而 将 变量 间 的 线性 回归 模型 转换 为 非 线 性 回归 
模型 。 我 们 前 面 已 经 介绍 过 这 个 技巧 ， 在 5.3 节 和 5.4 节 的 PolynomialRegression 管道 示 
例 中 都 有 提 及 。 这 个 方法 的 多 维 模型 是 : 

y=a0+ QI + a + 03X3 十 
其 中 一 维 的 输入 变量 x 转换 成 了 三 维 变量 x,、x,、 和 x3。 让 x, = f(x)， 这 里 的 1.0 是 转换 数 


pa 


据 的 函数 。 















































假如 (x) =xw*， 那 么 模型 就 会 变 成 多 项 式 回 归 : 

y=ataxtax +ax + 
需要 注意 的 是 ， 这 个 模型 仍然 是 一 个 线性 模型 ， 也 就 是 说 系数 w 彼此 不 会 相 乘 或 相 除 。 我 
们 其 实 是 将 一 维 的 x 投影 到 了 高 维 空间 ， 因 此 通过 线性 模型 就 可 以 拟 合 出 x 与 间 更 复杂 
的 关 3 So 
1. 多 项 式 基 范 数 
多 项 式 投 影 非常 有 用 ， 因 此 Scikit-Learn 内 置 了 PolynomialFeatures 转换 器 实现 这 个 功能 : 


In[6]: from sklearn.preprocessing import PolynomialFeatures 
x = np.array([2, 3, 4]) 
poly = PolynomialFeatures(3, include bias=False) 
poly.fit_ transform(x[:, None]) 





Out[6]: array([[ 2., 4., 8.]， 
ey A A 
[ 4., 16., 64.]]) 


转换 器 通过 指数 函数 ， 将 一 维 数 组 转换 成 了 三 维 数组 。 这 个 新 的 高 维 数组 之 后 可 以 放 在 多 
项 式 回归 模型 中 。 


就 像 在 5.4 节 介 绍 的 那样 ， 最 简洁 的 方式 是 用 管道 实现 这 些 过 程 。 让 我 们 创建 一 个 7 次 多 
项 式 回 归 模 型 
In[7]: from sklearn.pipeline import make_pipeline 


poly_model = make_pipeline(PolynomialFeatures(7), 
LinearRegression()) 


数据 经 过 转换 之 后 ， 我 们 就 可 以 用 线性 模型 来 拟 合 x 和 yy 之 间 更 复杂 的 关系 了 。 例 如 ， 下 
面 是 一 条 带 品 的 正弦 波 (如 图 5-44 所 示 ) : 


In[8]: rng = np.random.RandomState(1) 
x = 10 * rng.rand(50) 
y = np.sin(x) + 0.1 * rng.randn(50) 

















poly_model.fit(x[:, np.newaxis], y) 
yfit = poly_model.predict(xfit[:, np.newaxis]) 


plt.scatter(x, y) 
plt.plot(xfit, yfit); 
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图 5-44: 线性 多 项 式 回归 模型 拟 合 非 线性 训练 数据 
通过 运用 7 次 多 项 式 基 国 数 ， 这 个 线性 模型 可 以 对 非 线性 数据 拟 合 出 极 好 的 效果 ! 
2. 高 斯 基 范 数 


当然 还 有 其 他 类 型 的 基 国 数 。 例 如 ， 有 一 种 常用 的 拟 合 模型 方法 使 用 的 并 不 是 一 组 多 项 式 
基 国 数 ， 而 是 一 组 高 斯 基 畏 数 。 最 终结 果 如 图 5-45 所 示 。 














图 5-45: 高 斯 基 函 数 拟 合 非 线性 数据 


图 5-45 中 的 阴影 部 分 代表 不 同 规模 基 国 数 ， 把 它们 放 在 一 起 时 就 会 产生 平滑 的 曲线 。 
Scikit-Learn 并 没有 内 置 这 些 高 斯 基 范 数 ， 但 我 们 可 以 自己 写 一 个 转换 器 来 创建 高 斯 范 
数 ， 效 果 如 图 5-46 所 示 (Scikit-Learn 的 转换 器 都 是 用 Python 类 实现 的 ， 阅 读 Scikit-Learn 
的 源 代码 可 能 更 好 地 理解 它们 的 创建 方式 ) : 

















In[9]: 
from sklearn.base import BaseEstimator, TransformerMixin 


class GaussianFeatures(BaseEstimator, TransformerMixin): 


""" 一 维 输入 均匀 分 布 的 高 斯 特征 """ 





def _ init_ (self, N, width_ factor=2.0): 
seLf.N = N 
seLf .width_factor = WiLdth_factor 


@staticmethod 
def gauss_basis(x, y, width, axis=None): 
arg = (x - y) / width 
return np.exp(-0.5 * np.sum(arg ** 2, axis)) 


def fit(self, X, y=None): 
# 在 数据 区 间 中 创建 W 个 高 斯 分 布 中 心 
self.centers_ = np.linspace(X.min(), X.max(), self.N) 
self.width_ = self.width factor * (seLf.centers_[1] - self.centers_[0]) 
return self 














def transform(self, X): 
return self. gauss_basis(X[:, :, np.newaxis], self.centers, 
self.width_ , axis=1) 


gauss_model = make_pipeline(GaussianFeatures(20), 
LinearRegression()) 

gauss_model.fit(x[:, np.newaxis], y) 

yfit = gauss_model.predict(xfit[:, np.newaxis]) 


plt.scatter(x, y) 
plt.plot(xfit, yfit) 
plt.xlim(0, 10); 














图 5-46: 通过 自 定义 转换 器 ， 实 现 高 斯 基 范 数 拟 合 
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我 们 之 所 以 将 这 个 示例 放 在 这 里 ， 是 为 了 演示 多 项 式 基 图 数 并 不 是 什么 魔法 : 如 果 你 对 数 
据 的 产生 过 程 有 某 种 直觉 ， 那 么 就 可 以 自己 先 定义 一 些 基 畏 数 ， 然 后 像 这 样 使 用 它们 。 


5.6.3 正则 化 


虽然 在 线性 回归 模型 中 引入 基 函 数 会 让 模型 变 得 更 加 灵活 ， 但 是 也 很 容易 造成 过 拟 合 ( 详 
情 请 参见 5.3 节 )。 例 如 ， 如 果 选 择 了 太 多 高 斯 基 畏 数 ， 那 么 最 终 的 拟 合 结果 看 起 来 可 能 并 
不 好 (如 图 5-47 所 示 ) : 

In[10]: model = make_pipeline(GaussianFeatures(30), 


LinearRegression()) 
model.fit(x[:, np.newaxis], y) 



































plt.scatter(x, y) 
plt.plot(xfit, model.predict(xfit[:, np.newaxis])) 


plt.xlim(0, 10) 
plt.ylim(-1.5, 1.5); 

















5-47: 一 个 过 度 复杂 的 模型 对 数据 过 拟 合 














如 果 将 数据 投影 到 30 维 的 基 国 数 上 ， 模 型 就 会 变 得 过 于 灵活 ， 从 而 能 够 适应 数据 中 不 同 
位 置 的 异常 值 。 如 果 将 高 斯 基 范 数 的 系数 画 出 来 ， 就 可 以 看 到 过 拟 合 的 原因 (如 图 5-48 
所 示 ) : 


In[11]: def basis_ plot(model, title=None): 
fig, ax = plt.subplots(2, sharex=True) 
model.fit(x[:, np.newaxis], y) 
ax[0].scatter(x, y) 
ax[0].plot(xfit, model.predict(xfit[:, np.newaxis])) 
ax[0].set(xlabel='x', ylabel='y', ylim=(-1.5, 1.5)) 









































if title: 
ax[0].set title(title) 
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ax[1].pLot(modeL.steps[0][1].centers_， 


modeL.steps[1][1].coef ) 

ax[1].set(xLabeL='basis Location ' ， 
ylabel='coefficient', 
xlim=(0, 10)) 


model = make_pipeline(GaussianFeatures(30), LinearRegression()) 


basis_plot(model) 
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图 5-48: 过 度 复杂 的 模型 中 高 斯 基 函 数 的 系数 


图 5-48 下 面 那 幅 图 显示 了 每 个 位 置 上 基 函 数 的 振幅 。 
现 了 过 拟 合 : 相 邻 基 函 数 的 系数 相互 抵消 。 这 显然 古 














当 基 范 数 重合 的 时 候 ， 通 常 就 表明 出 
有 问题 的 ， 如 果 对 较 大 的 模型 参数 进 

















行 惩罚 (penalize) ， 从 而 抑制 模型 剧烈 波动 ， 应 该 就 可 以 解决 这 个 问题 了 。 这 个 惩罚 机 制 
被 称 为 正则 化 (regularization) ， 有 几 种 不 同 的 表现 形式 。 





岭 回归 〈Z2 范 数 正则 化 ) 


正则 化 最 常见 的 形式 可 能 就 是 岭 回 归 (ridge regression， 或 者 L 范 数 正则 化 ) ， 有 时 也 被 称 
为 吉 洪 诺 夫 正则 化 (Tikhonov regularization)。 其 处 理 方法 是 对 模型 系数 平方 和 (ZL, 范 数 ) 




















进行 惩 “ 加 > 模 型 拟 合 的 惩罚 项 为 : 


P= a - 


其 中 ,a 是 一 个 自由 参数 ， 用 来 控制 惩罚 的 力度 。 这 种 带 惩罚 项 的 模型 内 置 在 Scikit-Learn 





的 Ridge 评估 器 中 (如 图 5-49 所 示 ) : 


In[12]: from sklearn.linear_model import Ridge 
model = make_pipeline(GaussianFeatures( 
basis_plot(model, title='Ridge Regressi 








30), Ridge(alpha=0.1)) 
on') 
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Ridge Regression 
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图 5-49: 岭 回 归 (Zs 范 数 ) 正则 化 处 理 过 度 复 杂 的 模型 (与 图 5-48 对 比 ) 

















参数 a 是 控制 最 终 模 型 复杂 度 的 关键 。 如 果 a 一 0， 那 么 模型 就 恢复 到 标准 线性 回归 结果 ， 
如 果 a 一 ， 那 么 所 有 模型 响应 都 会 被 压制 。 岭 回归 的 一 个 重要 优点 是 ， 它 可 以 非常 高 效 
地 计算 一 一 因此 相 比 原始 的 线性 回归 模型 ， 几 乎 没有 消耗 更 多 的 计算 资源 。 

2. Lasso 正 则 化 《Li1 范 数 ) 

另 一 种 常用 的 正则 化 被 称 为 Lasso， 其 处 理 方 法 是 对 模型 系数 绝对 值 的 和 (Li 范 数 ) 进行 


征 吓 
和 趟 训 : 
































p=ay*a 
虽然 它 在 形式 上 非常 接近 岭 回 归 ， 但 是 其 结果 与 岭 回归 差别 很 大 。 例 如 ， 由 于 其 几何 特 
性 ，Lasso 正则 化 倾向 于 构建 稀 朴 模型 ， 也 就 是 说 ， 它 更 喜欢 将 模型 系数 设置 为 0。 


可 以 看 到 如 图 5-49 所 示 的 结果 ， 但 是 用 模型 系数 的 L1- 范 数 正 则 化 实现 的 (如 图 5-50 
所 示 ) : 
In[13]: from sklearn.linear_model import Lasso 


model = make_pipeline(GaussianFeatures(30), Lasso(alpha=0.001)) 
basis_plot(model, title='Lasso Regression') 


通过 Lasso 回归 惩罚 ， 大 多 数 基 国 数 的 系数 都 变 成 了 0， 所 以 模型 变 成 了 原来 基 国 数 的 一 


小 部 分 。 与 岭 回 归 正 则 化 类 似 ， 参 数 a 控制 惩罚 力度 ， 可 以 通过 交叉 检验 来 确定 (详情 请 
参见 5.3 节 )。 
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图 5-50: Lasso (Li 范 数 ) 正则 化 处 理 过 度 复杂 的 模型 (与 图 5-48 对 比 ) 


5.6.4 案例 : 预测 自行 车 流量 
下 面 来 尝试 预测 美国 西雅图 弗 雷 蒙特 桥 的 自行 车 流量 ， 数 据 源 自 不 同 天 气 、 季 节 和 其 他 条 
件 下 通过 该 桥 的 自行 车 统计 数据 。 我 们 在 3.12 节 见 过 这 些 数据 。 
在 本 节 中 ， 我 们 将 自行 车 数据 与 其 他 数据 集 连 接 起 来 ， 确 定 哪 些 天 气 和 季节 因素 (温度 、 
降雨 量 和 白昼 时 间 ) 会 影响 通过 这 座 桥 的 自行 车 流量 。NOAA 已 经 提供 了 每 日 的 站 点 天 气 
预报 (http:/www.ncdc.noaa.gov/cdo-web/search?datasetid=GHCND) 数据 (我 用 的 站 点 ID 
是 USW00024233)， 可 以 用 Pandas 轻松 将 两 份 数 据 连 接 起 来 。 然 后 ， 创 建 一 个 简单 的 线性 
回归 模型 来 探索 与 自行 车 数量 相关 的 天 气 和 其 他 因素 ， 从 而 评估 任意 一 种 因素 对 骑 车 人 数 
的 影响 。 
值得 注意 的 是 ， 这 是 一 个 演示 在 统计 模型 框架 中 如 何 应 用 Scikit-Learn 工具 的 案例 ， 模 型 
参数 被 假设 为 具有 可 以 解释 的 含义 。 就 像 前 面 介绍 过 的 那样 ， 虽然 这 并 不 是 一 个 介绍 标准 
机 器 学 习 方 法 的 案例 ， 但 是 对 模型 的 解释 在 其 他 模型 中 也 会 用 到 。 
首先 加 载 两 个 数据 集 ， 用 日 期 作 索 引 : 

In[14]: 

import pandas as pd 


counts = pd.read_csv('fremont_ hourly.csv', index_col='Date', parse_dates=True) 
weather = pd.read_csv('599021.csv', index_col='DATE', parse_dates=True) 


然后 计算 每 一 天 的 自行 车 流量 ， 将 结果 放 到 一 个 新 的 DataFrame 中 : 
In[15]: daily = counts.resample('d', how='sum') 


daily['Total'] = daily.sum(axis=1) 
daily = daily[['Total']] # remove other columns 


在 之 前 的 分 析 中 ， 我 们 发 现 同 一 周 内 每 一 天 的 模式 都 是 不 一 样 的 。 因 此 ， 我 们 在 数据 中 加 
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上 7 列 0~1 值 表示 星期 几 ; 


In[16]: days = ['Mon', 'Tue', 'Wed', 'Thuyu', 'Fri', 'Sat', 'Sun'] 
for i in range(7): 
daily[days[i]] = (daily.index.dayofweek == i).astype(float) 


我 们 觉得 骑 车 人 数 在 节假日 也 有 所 变化 。 因 此 ， 再 增加 一 列表 示 当 天 是 否 为 市 假日 : 


In[17]: from pandas.tseries.holiday import USFederalHolidayCalendar 
cal = USFederalHolidayCalendar() 
holidays = cal.holidays('2012', '2016') 
daily = daily.join(pd.Series(1, index=holidays, name='holiday')) 
daily['holiday'].fillna(0, inplace=True) 


我 们 还 认为 白昼 时 间 也 会 影响 骑 车 人 数 。 因 此 ， 用 标准 的 天 文 计算 来 添加 这 列 信息 (如 
5-51 所 示 ) : 


In[18]: def hours_of_daylight(date, axis=23.44, latitude=47.61): 
""" 计 算 指 定 日 期 的 白 且 时间""" 
days = (date - pd.datetime(2000, 12, 21)).days 
m= (1. - np.tan(np.radians(latitude)) 
* np.tan(np.radians(axis) * np.cos(days * 2 * np.pi / 365.25))) 
return 24. * np.degrees(np.arccos(1 - np.clip(m, 0, 2))) / 180. 























WN| 














daily['daylight_hrs'] = list(map(hours_of_daylight, daily.index)) 
daily[['daylight_hrs']].plot(); 
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5-51: 西雅图 数据 白 导 时 间 可 视 化 


我 们 还 可 以 增加 每 一 天 的 平均 气温 和 总 降雨 量 。 除 了 降雨 量 的 数值 之 外 ， 再 增加 一 个 标记 
表示 是 否 下 雨 (是否 降雨 量 为 0) : 
In[19]: # 温度 是 按照 1/19 摄 氏 度 统计 的 ， 首 先 转换 为 摄氏 度 
weather['TMIN'] /= 10 


weather['TMAX'] /= 10 
weather['Temp (C)'] = 0.5 * (weather['TMIN'] + weather['TMAX']) 











大 
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们 看 到 每 一 年 


数据 已 经 准 


有 了 这 些 数据 之 后 ， 就 可 以 选择 需要 使 用 的 列 ， 然 后 对 数据 建立 线性 回归 


# 降雨 量 也 是 按照 1/16mm 统 计 的 ， 转 化 为 英寸 
weather['PRCP'] /= 254 
weather['dry day'] = (weather['PRCP'] == 0).astype(int) 





daily = daily.join(weather[['PRCP', 'Temp (C)', 'dry day']]) 


最 后 ， 增 加 一 个 从 1 开始 递增 的 计数 器 ， 





自行 车 流量 的 增长 或 减少 : 


表示 一 年 已 经 过 去 了 多 少 天 。 这 个 特 和 








In[20]: daily['annual'] = (daily.index - daily.index[0]).days / 365. 

















Out[21]: 


Date 

2012-10-03 
2012-10-04 
2012-10-05 
2012-10-06 
2012-10-07 


Date 

2012-10-03 
2012-10-04 
2012-10-05 
2012-10-06 
2012-10-07 


Total Mon Tu 


3521 
3475 
3148 
2006 
2142 


©O©Oo©oooo 


全 


DODD 


就 绪 ， 来 看 看 前 几 行 : 


In[21]: daily.head() 


Wed Thu 


©©oooPprp 


PRCP Temp (C) dry day 


©O©Oo©ooo 


13.35 
13.60 
15.30 
15.85 
15.85 


FF 上 





©OOOoPO 


模型 中 使 用 截 距 ， 而 是 设置 fit_intercept 
基本 上 可 以 作为 当天 的 截 距 “: 


最 后 
所 示 


In[22]: 


DD DD 


Fri Sat Sun holiday daylight_hrs 
0 0 11.277359 
0 0 11.219142 
0 0 11.161038 
0 0 11.103056 
1 0 11.045208 


©O©OoPOO 
OPOOO 


annual 


.000000 
.002740 
.005479 
.008219 
.010959 


= FaLse， 因 











\\ 


E 可 以 让 我 


模型 。 我 们 不 在 


为 每 一 天 的 总 流量 (Total 字段 ) 


column_names = ['Mon', 'Tue', 'Wed', 'Thuyu', 'Fri', 'Sat', 'Sun', 'holiday', 
'daylight_hrs', 'PRCP', 'dry day', 'Temp (C)', 'annual'] 


X 
y 


daily[column_names] 
daily['Total'] 


model = LinearRegression(fit intercept=False) 
model.fit(X, y) 
daily['predicted'] 





) : 


model.predict(X) 


对 比 自行 车 真实 流量 (Total 字段 ) 与 预测 流量 (predicted 字段 ) (如 


In[23]: daily[['Total', 'predicted']].plot(alpha=0.5); 























其 实 此 线性 











归 模 型 使 




















截 距 ， 即 设置 fit_intercept = True， 拟 合 结果 也 不 变 。 一 一 译 者 注 
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图 5-52: 回归 模型 预测 的 自行 车 流量 


显然 ， 我 们 丢失 了 一 些 关 键 特征 ， 尤 其 是 夏天 的 预测 数据 。 要 么 是 由 于 特征 没有 收集 全 
( 即 可 能 还 有 其 他 因素 会 影响 人 们 是 否 骑 车 )， 要 么 是 有 一 些 非 线性 关系 我 们 没有 考虑 到 
(例如 ， 可 能 人 们 在 温度 过 高 或 过 低 时 都 不 愿意 骑 车 )。 但 是 ， 这 个 近似 解 已 经 足以 说 明 问 
题 。 下 面 让 我 们 看 看 模型 的 系数 ， 评 估 各 个 特征 对 每 日 自行 车 流量 的 影响 : 


In[24]: params = pd.Series(model.coef_, index=X.columns) 





params 
Out[24]: Mon 503.797330 
Tue 612.088879 
Wed 591.611292 
Thu 481.250377 
Fri 176.838999 
Sat -1104.321406 
Sun -1134.610322 
holiday -1187.212688 
daylight_hrs 128.873251 
PRCP -665.185105 
dry day 546.185613 
Temp (C) 65.194390 
annual 27.865349 


dtype: float64 


如 果 不 对 这 些 数 据 的 不 确定 性 进行 评估 ， 那 么 它们 很 难 具 有 人 解释 力 。 可 以 用 自 举重 采样 方 
法 快速 计算 数据 的 不 确定 性 : 


In[25]: from sklearn.utils import resample 
np.random. seed(1) 
err = np.std([model.fit(*resample(X, y)).coef_ 
for i in range(1000)], 0) 

















有 了 估计 误差 之 后 ， 再 来 看 这 些 结果 : 


In[26]: print(pd.DataFrame({'effect': params.round(0) ， 
'error': err.round(0)})) 








effect error 


Mon 504 85 
Tue 612 82 
Wed 592 82 
Thu 481 85 
Fri 177 81 
Sat -1104 79 
Sun -1135 82 
holiday -1187 164 
daylight_hrs 129 9 
PRCP -665 62 
dry day 546 33 
Temp (C) 65 4 
annual 28 18 





首先 ， 星 期 特征 是 比较 稳定 的 ， 工 作 日 骑 车 的 人 数 显 然 比 周末 和 节假日 要 多 。 其 次 ， 白 入 
时 间 每 增加 1 小 时 ， 就 平均 增加 129 土 9 个 骑 车 的 人 ; 而 温度 每 上 升 1 度 ， 则 增加 65 土 
4 个 骑 车 的 人 ， 如 果 那 天 没 下 雨 ， 那 么 骑 车 人 数 增加 $46 土 33 人 ; 降雨 量 每 增加 1 英寸 ， 
骑 车 人 数 减 少 665 土 62 人 。 当 所 有 影响 因素 都 生效 之 后 ， 一 年 中 每 多 一 天 骑 车 人 数 增加 
(日 环比 增幅 ) 28 士 18 人 。 


我 们 的 模型 的 确 丢失 了 一 些 重 要 信息 。 例 如 ， 变 量 的 非 线性 影响 因素 (例如 降雨 和 寒冷 天 
气 的 影响 ) 和 非 线 性 趋势 (例如 入 们 在 温度 过 高 或 过 低 时 可 能 都 不 愿意 骑 车 ) 在 模型 中 都 
没有 体现 。 另 外 ， 我 们 丢掉 了 一 些 细 颗 粒度 的 数据 〈 例 如 下 雨天 的 早晨 和 下 雨天 的 傍晚 之 
间 的 差异 )， 还 忽略 了 相 邻 日 期 彼此 间 的 相关 性 〈 例 如 下 雨 的 星期 二 对 星期 三 骑 车 人 数 的 
影响 ， 或 者 涝 沱 大 雨 之 后 意外 的 十 过 天 睛 对 骑 车 人 数 的 影响 )， 这 些 都 可 能 对 骑 车 人 数 产 
影响 。 现 在 你 手 上 已 经 有 了 工具 ， 如 有 果 愿 意 ， 可 以 进一步 进行 分 析 。 


5.7 专题: 支持 问 量 机 


支持 向 量 机 (support vector machine，SVM) 是 非常 强大 、 灵 活 的 有 监督 学 习 算 法 ， 既 可 

用 于 分 类 ， 也 可 用 于 回归 。 在 本 节 中 ， 我 们 将 介绍 支持 向 量 机 的 原理 ， 并 用 它 解决 分 类 问 

题 。 首 先 还 是 导入 需要 用 的 程序 库 : 
In[1]: %matplotlib inline 
import numpy as np 


import matplotlib.pyplot as plt 
from scipy import stats 

































































# 用 Seaborn 画 图 
import seaborn as sns; sns.set() 
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5.7.1 支持 向 量 机 的 由 来 
在 前 面 介绍 贝 叶 斯 分 类 器 (详情 请 参见 5.5 节 ) 时 ， 我 们 首先 对 每 个 类 进行 了 随机 分 布 的 
假设 ， 然 后 用 生成 的 模型 估计 新 数据 点 的 标签 。 那 是 生成 分 类 方法 ， 这 里 将 介绍 判别 分 类 
方法 : 不 再 为 每 类 数据 建 模 ， 而 是 用 一 条 分 割 线 (二 维 空间 中 的 直线 或 曲线 ) 或 者 流 形体 
《多 维 空间 中 的 曲线 、 曲 面 等 概念 的 推广 ) 将 各 种 类 型 分 割 开 。 
下 面 用 一 个 简单 的 分 类 示例 来 演示 ， 其 中 两 种 类 型 的 数据 可 以 被 清晰 地 分 割 开 〈 如 图 5-53 
所 示 ) : 

In[2]: from sklearn.datasets.samples_generator import make_blobs 

X, y = make_blobs(n_samples=50, centers=2, 


random_state=0, cluster_std=0.60) 
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn'); 
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5-53: 简易 分 类 数据 


这 个 线性 判别 分 类 器 尝试 画 一 条 将 数据 分 成 两 部 分 的 直线 ， 这 样 就 构成 了 一 个 分 类 模型 。 
对 于 上 图 的 二 维 数据 来 说 ， 这 个 任务 其 实 可 以 手动 完成 。 但 是 我 们 马上 发 现 一 个 问题 : 在 
这 两 种 类 型 之 间 ， 有 不 止 一 条 直线 可 以 将 它们 完美 分 割 。 

可 以 把 它们 画 出 来 看 看 (如 图 5-54 所 示 ) : 


In[3]: xfit = np.linspace(-1, 3.5) 
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') 
plt.plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10) 
































! 








for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]: 
plt.plot(xfit, m * xfit + b, '-k') 


plt.xlim(-1, 3.5); 




















图 5-54: 三 条 完美 的 线性 判别 分 类 器 


虽然 这 三 个 不 同 的 分 割 堪 都 能 完美 地 判别 这 些 样本 ， 但 是 选择 不 同 的 分 割 线 ， 可 能 会 让 新 
的 数据 点 例如 图 5-54 中 的 “X” 点 ) 分 配 到 不 同 的 标签 。 显 然 ,“ 画 一 条 分 割 不 同类 型 
的 直线 ”还 不 够 ， 我 们 需要 进一步 思 


5.7.2 支持 向 量 机 : 边界 最 大 化 
支持 向 量 机 提供 了 改进 这 个 问题 的 方法 ， 它 直观 的 解释 是 : 不 再 画 一 条 细 线 来 区 分 类 
型 ， 而 是 画 一 条 到 最 近 点 边界 、 有 况 度 的 线条 。 具 体形 式 如 下 面 的 示例 所 示 (如 图 
5-55 所 示 ): 

In[4]: 


xfit = np.linspace(-1, 3.5) 
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='autumn') 

































































for m, b, d in [(1, 0.65, 0.33), (0.5, 1.6, 0.55), (-0.2, 2.9, 0.2)]: 
yfit = mx xfit + b 
plt.plot(xfit, yfit, '-k') 
plt.fill_ between(xfit, yfit - d, yfit + d, edgecolor='none', color='#AAAAAA', 
alpha=0.4) 


plt.xlim(-1, 3.5); 


在 支持 向 量 机 中 ， 选 择 边界 最 大 的 那 条 线 是 模型 最 优 解 。 支 持 向 量 机 其 实 就 是 一 个 边界 最 
大 化 评估 器 
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图 5-55: 带 “ 边 界 ”的 判别 分 类 器 


1. 拟 合 支 持 向 量 机 

来 看 看 这 个 数据 的 真实 拟 合 结果 : 用 Scikit-Learn 的 支持 向 量 机 分 类 器 在 数据 上 训练 一 个 
SVM 模型 。 这 里 用 一 个 线性 核 函数 ， 并 将 参数 C 设 置 为 一 个 很 大 的 数 (后 面 会 介绍 这 些 设 
置 的 意义 ) : 
In[5]: from sklearn.svm import SVC # "Support vector classifier" 


model = SVC(kernel='linear', C=1E10) 
model.fit(X, y) 






































Out[5]: SVC(C=10000000000.0, cache_size=200, class_weight=None, coef0=0.0, 


decision function_shape=None, degree=3, gamma='auto', kernel='linear', 
max_iter=-1, probability=False, random_ state=None, shrinking=True, 
tol=0.001, verbose=False) 




















为 了 实现 更 好 的 可 视 化 分 类 效果 ， 创 建 一 个 辅助 函数 画 出 SVM 的 决策 边界 (如 图 5-56 
所 示 ) : 


In[6]: def plot_svc_decision function(model, ax=None, plot_support=True): 





""" 画 二 维 SVC 的 决策 函数 """ 


if ax is None: 


ax = plt.gca() 
xlim = ax.get xlim() 
ylim = ax.get_yLim() 


# 创建 评估 模型 的 网 格 

x = np.linspace(xlim[0], xlim[1], 30) 
np.linspace(ylim[0], ylim[1], 30) 

Y, X = np.meshgrid(y, x) 

xy = np.vstack([X.ravel(), Y.ravel()]).T 

P = model.decision function(xy).reshape(X.shape) 


< 


# 画 决 策 边 界 和 边界 
ax.contour(X, Y, P, colors='k', 





LeveLs=[-1，0，1]，aLpha=0.5， 
linestyles=['--', '-', '--']) 


# 画 支 持 向 量 
if plot_support: 
ax.scatter(model.support_vectors_[:, 0]， 
model.support_vectors_[:, 1], 
s=300, linewidth=1, facecolors='none'); 
ax.set_xlim(xlim) 
ax.set_ylim(ylim) 


In[7]: plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn') 
plot_svc_decision function(model); 
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图 5-56: 带 边 界线 (虚线 ) 和 支持 向 量 (圆圈 ) 的 支持 向 量 机 分 类 器 拟 合 数据 结果 





这 就 是 两 类 数据 间隔 最 大 的 分 割 线 。 你 会 发 现 有 一 些 点 正好 就 在 边界 线 上 ， 在 图 5-56 中 
用 黑 圆 圈 表 示 。 这 些 点 是 拟 合 的 关键 支持 点 ， 被 称 为 支持 向 量 ， 支 持 向 量 机 算法 也 因此 得 
名 。 在 Scikit-Learn 里 面 ， 支 持 向 量 的 坐标 存放 在 分 类 器 的 support_vectors_ 属性 中 : 


In[8]: modeL.support_vectors_ 




















Out[8]: array([[ 0.44359863, 3.11530945] ， 
[ 2.33812285， 3.43116792] ， 
[ 2.06156753， 1.96918596]]) 


分 类 器 能 够 成 功 拟 合 的 关键 因素 ， 就 是 这 些 支持 向 量 的 位 置 一 一 任何 在 正确 分 类 一 侧 远 
离 边 界线 的 点 都 不 会 影响 拟 合 结果 ! 从 技术 角度 解释 的 话 ， 是 因为 这 些 点 不 会 对 拟 合 模 
型 的 损失 函数 产生 任何 影响 ， 所 以 只 要 它们 没有 跨越 边界 线 ， 它 们 的 位 置 和 数量 就 都 无 
关 紧 要 。 
例如 ， 可 以 分 别 画 出 数据 集 前 60 个 点 和 前 120 个 点 的 拟 舍 结果 ， 并 进行 对 比 (如 图 5-57 
所 示 ) : 
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In[9]: def plot_svm(N=10, ax=None): 
X, y = make_blobs(n_samples=N, centers=2, 
random_state=0, cluster_std=0.60) 
x = Xx[:N] 
y[:N] 
model = SVC(kernel='linear', C=1E10) 
model.fit(X, y) 


ax = ax or plt.gca() 

x.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn') 
ax.set_ xlim(-1, 4) 

ax.set_ylim(-1, 6) 

plot_svc_decision function(model, ax) 


[ey 


fig, ax = plt.subplots(1, 2, figsize=(16, 6)) 
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1) 
for axi, N in zip(ax, [60, 120]): 

plot_svm(N, axi) 

axi.set title('N = {0}'.format(N)) 














5-57: 新 训练 数据 点 对 SVM 模型 的 影响 


] 在 左 图 中 看 到 的 是 前 60 个 训练 样本 的 模型 和 支持 向 量 。 在 右 图 中 ， 虽 然 我 们 画 了 前 
个 训练 样本 的 支持 向 量 ， 但 是 模型 并 没有 改变 : 左 图 中 的 3 个 支持 向 量 仍然 适用 于 右 


我 介 


120 
图 。 


如 果 你 正在 运行 Notebook， 可 以 用 IPython 的 交互 组 位 


(如 



































这 种 对 远离 边界 的 数据 点 不 敏感 的 特点 正 是 SVM 模型 的 优点 之 一 。 














图 5-58 所 示 ) : 


In[10]: from ipywidgets import interact, fixed 
interact(plot_svm, N=[10, 200], ax=fixed(None)); 





2. 超越 线性 边界 : 核 函 数 SVM 模 型 


将 SVM 模型 与 核 函 数组 合 使 用 ， 功 能 会 非常 强大 。 我 们 如 











E 5.6 节 介 绍 基 国 数 回 归 


动态 观察 SVM 模型 的 这 个 特点 


时 介绍 


过 一 些 核 函 数 。 那 时 ， 我 们 将 数据 投影 到 多 项 式 和 高 斯 基 函 数 定义 的 高 维 空间 中 ， 从 而 实 
现 用 线性 分 类 器 拟 合 非 线 性 关系 。 























5-58: SVM 模型 可 视 化 的 第 一 帧 画面 (详情 请 参考 Github 上 的 完整 在 线 附 录 ，https:/github. 


com/jakevdp/PythonDataScienceHandbook) 





据 (如 图 5-59 所 示 ): 


In[11]: from skLearn.datasets.sampLes_generator import make_circles 
X，y = make_circles(100, factor=.1, noise=.1) 


clf = SVC(kernel='linear').fit(X, y) 


plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn') 
plot_svc_decision function(clf, plot_support=False); 


在 SVM 模型 中 ,我 们 可 以 沿用 同样 的 思路 。 为 了 应 用 核 函 数 ， 引 入 一 些 非 线性 可 分 的 数 

















5-59: 用 线性 分 类 器 处 理 非 线性 边界 的 效果 





机 器 学 习 


359 





显然 ， 这 里 需要 用 非 线性 判别 方法 来 分 割 数据 。 回 顾 一 下 5.6 节 介 绍 的 基 范 数 回归 方法 ， 
想 想 如 何 将 数据 投影 到 高 维 空间 ， 从 而 使 线性 分 割 器 可 以 派 上 用 场 。 例 如 ， 一 种 简单 的 投 
影 方法 就 是 计算 一 个 以 数据 圆圈 (middle clump) 为 中 心 的 径 向 基 函 数 : 


In[12]: r = np.exp(-(X ** 2).sum(1)) 


可 以 通过 三 维 图 来 可 视 化 新 增 的 维度 一 一 如 果 你 正在 运行 Notebook， 就 可 以 用 请 块 变换 观 
赛 角度 (如 图 5-60 所 示 ) : 


In[13]: from mpl_toolkits import mpLot3d 





























def plot_3D(elev=30, azim=30, X=X, y=y): 
ax = plt.subplot(projection='3d') 
ax.scatter3D(X[:, 0], X[:, 1], r, c=y, s=50, cmap="'autumn') 
ax.view init(elev=elev, azim=azim) 
ax.set xlabel('x') 
ax.set_ylabel('y') 
ax.set zlabel('r') 


interact(plot_3D, elev=[-90, 90], azip=(-180, 180), 
X=fixed(X), y=fixed(y)); 

















图 5-60; 可 以 进行 线性 分 割 的 第 三 个 维度 


增加 新 维度 之 后 ， 数 据 变 成 了 线性 可 分 状态 。 如 果 现在 画 一 个 分 割 平面 ， 例 如 x = 0.7， 即 
可 将 数据 分 割 。 


我 们 还 需要 仔细 选择 和 优化 投影 方式 ， 如 果 不 能 将 径 向 基 范 数 集中 到 正确 的 位 置 ， 那 么 就 
得 不 到 如 此 和 干净、 可 分 割 的 结果 。 通 常 ， 选 择 基 国 数 比 较 困 难 ， 我 们 需要 让 模型 自动 指出 
最 合适 的 基 函 数 。 

一 种 策略 是 计算 基 范 数 在 数据 集 上 每 个 点 的 变换 结果 ， 让 SVM 算法 从 所 有 结果 中 筛选 出 

最 优 解 。 这 种 基 函 数 变 换 方式 被 称 为 核 变 换 ， 是 基于 每 对 数据 点 之 间 的 相似 度 (或 者 核 函 
数 ) 计算 的 。 






























































这 种 策略 的 问题 是 ， 如 果 将 W 个 数据 点 投影 到 N 维 空间 ， 当 V 不 断 增 大 的 时 候 就 会 出 现 
维度 灾难 ， 计 算 量 巨大 。 但 由 于 核 函数 技巧 (http:/Wbitly/2fStZeA) 提供 的 小 程序 可 以 隐 式 
计算 核 变换 数据 的 拟 合 ， 也 就 是 说 ， 不 需要 建立 完全 的 NV 维 核 函数 投影 空间 ! 这 个 核 函 数 
技巧 内 置 在 SVM 模型 中 ， 是 使 SVM 方法 如 此 强大 的 充分 条 件 。 
在 Scikit-Learn 里 面 ， 我 们 可 以 应 用 核 函 数 化 的 SVM 模型 将 线性 核 转变 为 RBF ( 径 向 基 国 
数 ) 核 ， 设置 kernel 模型 超 参数 即 可 (如 图 5-61 所 示 ) : 


In[14]: clf = SVC(kernel='rbf', C=1E6) 
clf.fit(X, y) 























Out[14]: SVC(C=1000000.0, cache_size=200, class_weight=None, coef0=0.0, 
decision function_shape=None, degree=3, gamma='auto', kernel='rbf', 
max_iter=-1, probability=False, random_state=None, shrinking=True, 
tol=0.001, verbose=False) 


In[15]: plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn') 
plot_svc_decision function(clf) 
plt.scatter(clf.support_vectors_[:, 0], clf.support vectors_[:, 1]， 
s=300, lw=1, facecolors='none'); 





05 


-05 














图 5-61: 核 函数 化 的 SVM 模型 拟 合 数据 


通过 使 用 这 个 核 函数 化 的 支持 向 量 机 ， 我 们 找到 了 一 条 合适 的 非 线 性 决策 边界 。 在 机 器 学 
习 中 ， 核 变换 策略 经 常用 于 将 快速 线性 方法 变换 成 快速 非 线 性 方法 ， 尤 其 是 对 于 那些 可 以 
应 用 核 函 数 技巧 的 模型 。 

3. SVM 优 化 : 软化 边界 

到 目前 为 止 ， 我 们 介绍 的 模型 都 是 在 处 理 非常 干净 的 数据 集 ， 里 面 都 有 非常 完美 的 决策 
边界 。 但 如 果 你 的 数据 有 一 些 重 倒 该 怎么 办 呢 ? 例如 ， 有 如 下 所 示 一 些 数据 (如 图 5-62 
所 示 ) : 
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In[16]: X, y = make_blobs(n_samples=100, centers=2, 
random_state=0, cluster_std=1.2) 
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn'); 
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图 5-62: 有 重 敬 的 数据 


为 了 解决 这 个 问题 ，SVM 实现 了 一 些 修正 因子 来 “软化 ”边界 。 为 了 取得 更 好 的 拟 合 效 
果 ， 它 允许 一 些 点 位 于 边界 线 之 内 。 边 界线 的 硬度 可 以 通过 超 参数 进行 控制 ,通常 是 C。 
如 果 C 很 大 ， 边 界 就 会 很 硬 ， 数 据点 便 不 能 在 边界 内 “生存 ”， 如果 C 比较 小 ， 边 界线 比 
较 软 ， 有 一 些 数据 点 就 可 以 穿越 边界 线 。 

图 5-63 显示 了 不 同 参数 C 通过 软化 边界 线 ， 对 拟 合 效果 产生 的 影响 : 


In[17]: X, y = make_blobs(n_samples=100, centers=2, 
random_state=0, cluster_std=0.8) 











fig, ax = plt.subplots(1, 2, figsize=(16, 6)) 
fig.subplots_adjust(left=0.0625, right=0.95, wspace=0.1) 


for axi, C in zip(ax, [10.0, 0.1]): 
model = SVC(kernel="'linear', C=C).fit(X, y) 
axi.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap="'autumn') 
plot_svc_decision function(model, axi) 
axi.scatter(model.support_vectors_[:, 0], 
model.support_vectors_[:, 1], 
s=300, lw=1, facecolors='none'); 
axi.set title('C = {0:.1f}'.format(C), size=14) 
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图 5-63: 不 同 参数 C 的 支持 向 量 机 拟 合 效果 





参数 C 的 最 优 值 视 数据 集 的 具体 情况 而 定 ， 通 过 交叉 检验 或 者 类 似 的 程序 进行 计算 (详情 
请 参见 5.3 节 ) 。 


5.7.3 案例 : 人 脸 识别 
我 们 用 人 脸 识 别 案例 来 演示 支持 向 量 机 的 实战 过 程 。 这 里 用 Wild 数据 集中 带 标记 的 人 脸 
图 像 ， 里 面包 含 了 数 千张 公开 的 人 脸 照 片 。Scikit-Learn 内 置 了 获取 照片 数据 集 的 功能 : 
In[18]: from sklearn.datasets import fetch_lfw_people 
faces = fetch_Lfw_peopLe(min_faces_per_person=60) 


print(faces.target_names) 
print(faces.images.shape) 























['Ariel Sharon' 'Colin Powell' 'Donald Rumsfeld' 'George W Bush' 
'Gerhard Schroeder' 'Hugo Chavez' 'Junichiro Koizumi' 'Tony Blair'] 
(1348, 62, 47) 


画 一 些 人 脸 ， 看 看 需要 处 理 的 数据 (如 图 5-64 所 示 ) : 


In[19]: fig, ax = plt.subplots(3, 5) 
for i, axi in enumerate(ax.flat): 
axi.imshow(faces.images[i], cmap='bone') 
axi.set(xticks=[], yticks=[], 
xlabel=faces.target names[faces.target[i]]) 


每 个 图 像 包 含 [62 x 47]、 接 近 3000 像素 。 虽 然 可 以 简单 地 将 每 个 像素 作为 一 个 特征 ， 但 
是 更 高 效 的 方法 通常 是 使 用 预 处 理 器 来 提取 更 有 意义 的 特征 。 这 里 使 用 主 成 分 分 析 (详情 
请 参见 5.9 市 ) 来 提取 150 个 基本 元 素 ， 然 后 将 其 提供 给 支持 向 量 机 分 类 器 。 可 以 将 这 个 
预 处 理 器 和 分 类 器 打包 成 管道 : 

In[20]: from sklearn.svm import SVC 


from sklearn.decomposition import RandomizedPCA 
from sklearn.pipeline import make_pipeline 






































pca = RandomizedPCA(n_components=150, whiten=True, random_state=42) 
svc = SVC(kernel='rbf', class_weight='balanced') 
model = make_pipeline(pca, svc) 
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Colin Powell George W Bush George W Bush George W Bush Hugo Chavez 


Tony Blair Ariel Sharon 





George W Bush Donald Rumsfeld George W Bush George W Bush ”George W Bush 








图 5-64: Wild 数据 集中 带 标记 的 人 脸 图 像 
为 了 测试 分 类 器 的 训练 效果 ， 将 数据 集 分 解 成 训练 集 和 测试 集 进行 交叉 检验 : 


In[21]: from sklearn.cross_validation import train_test_split 
Xtrain, Xtest, ytrain, ytest = train test_split(faces.data, faces.target, 
random_state=42) 


最 后 ， 用 网 格 搜索 交叉 检验 来 寻找 最 优 参数 组 合 。 通 过 不 断 调整 参数 5 (控制 边界 线 的 硬 
度 ) 和 参数 gamma (控制 径 向 基 函 数 核 的 大 小 )， 确 定 最 优 模型 : 


In[22]: from sklearn.grid_search import GridSearchCV 
param_grid = {'svc_C': [1, 5, 10, 50], 
'svc__gamma': [0.0001, 0.0005, 0.001, 0.005]} 
grid = GridSearchCV(modeL，param_grid) 





%time grid.fit(Xtrain, ytrain) 
print(grid.best_params_) 


CPU times: User 47.8 s, sys: 4.08 s, total: 51.8 s 
Wall time: 26 s 
{'svc_gamma': 0.001, 'svc_C': 10} 


最 优 参数 最 终 落 在 了 网 格 的 中 间 位 置 。 如 果 它 们 落 在 了 边缘 位 置 ， 我 们 可 能 就 需要 扩展 网 
格 搜索 范围 ， 确 保 最 优 参数 可 以 被 搜索 到 。 
有 了 交叉 检验 的 模型 ， 现 在 就 可 以 对 测试 集 的 数据 进行 预测 了 : 


In[23]: model = grid.best_estimator_ 
yfit = model.predict(Xtest) 


将 一 些 测试 图 片 与 预测 图 片 进行 对 比如 图 5-65 所 示 ) : 


In[24]: fig, ax = plt.subplots(4, 6) 
for i, axi in enumerate(ax.flat): 
axi.imshow(Xtest[i].reshape(62, 47), cmap='bone') 
axi.set(xticks=[], yticks=[]) 























axi.set_ylabel(faces.target names[yfit[i]].split()[-1], 
color='black' if yfit[i] == ytest[i] else 'red') 
fig.suptitle('Predicted Names; Incorrect Labels in Red', size=14); 





Predicted Names; Incorrect Labels in Red 





蜂 时 扣 











图 5-65: 模型 预测 标签 


在 这 个 小 样本 中 ， 我 们 的 最 优 评估 器 只 判断 错 了 一 张 照片 (最 后 一 行 中 布什 的 照片 被 误 判 
为 布莱尔 )。 我 们 可 以 打印 分 类 效果 报告 ， 它 会 列举 每 个 标签 的 统计 结果 ， 从 而 对 评估 器 
的 性 能 有 更 全 面 的 认识 : 

In[25]: from sklearn.metrics import classification_report 


print(classification_report(ytest, yfit, 
target_names=faces.target_names)) 

















precision recall fi-score support 

Ariel Sharon 0.65 0.73 0.69 15 
Colin Powell 0.81 0.87 0.84 68 
DonaLd Rumsfeld O75 0.87 0.81 31 
George W Bush 0.93 0.83 0.88 126 
Gerhard Schroeder 0.86 0.78 0.82 23 
Hugo Chavez 0.93 0.70 0.80 20 
Junichiro Koizumi 0.80 1.00 0.89 12 
Tony Blair 0.83 0.93 0.88 42 

avg / total 0.85 0.85 0.85 337 


还 可 以 画 出 这 些 标签 的 混淆 矩阵 〈 如 图 5-66 所 示 ) : 


In[26]: from sklearn.metrics import confusion_matrix 
mat = confusion_ matrix(ytest, yfit) 
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False, 
xticklabels=faces.target_names, 
yticklabels=faces.target_names) 
plt.xlabel('true label') 
plt.ylabel('predicted label'); 
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图 5-66: 人 脸 数据 混淆 矩阵 

这 幅 图 可 以 帮助 我 们 清晰 地 判断 哪些 标签 容易 被 分 类 器 误 判 。 

真实 环境 中 的 人 脸 识别 问题 的 照片 通常 不 会 被 切割 得 这 么 整齐 〈 即 使 像素 相同 ) ， 两 类 人 
脸 分 类 机 制 的 唯一 差别 其 实 是 特征 选择 : 你 需要 用 更 复杂 的 算法 找到 人 脸 ， 然 后 提取 图 片 
中 与 像素 化 无 关 的 人 脸 特 征 。 这 类 问题 有 一 个 不 错 的 解决 方案 ， 就 是 用 OpenCV (http:/ 
opencv.org) 配合 其 他 手段 ， 包 括 最 先进 的 通用 图 像 和 人 脸 图 像 的 特征 提取 工具 ， 来 获取 
人 脸 特 征 数据 。 


5.7.4 支持 向量 机 总 结 

前 面 已 经 简单 介绍 了 支持 向 量 机 的 基本 原则 。 支 持 向 量 机 是 一 种 强大 的 分 类 方法 ， 主 要 有 

四 点 理由 。 

。 模型 依赖 的 支持 向 量 比 较 少 ， 说 明 它们 都 是 非常 精致 的 模型 ， 消 耗 内 存 少 。 

。 一 旦 模型 训练 完成 ， 预 测 阶 段 的 速度 非常 快 。 

。 由 于 模型 只 受 边界 线 附近 的 点 的 影响 ， 因 此 它们 对 于 高 维 数据 的 学 习 效 采 非 常 好 一 一 即 
使 训练 比 样本 维度 还 高 的 数据 也 没有 问题 ， 而 这 是 其 他 算法 难以 企及 的 。 

。 与 核 函数 方法 的 配合 极 具 通用 性 ， 能 够 适用 不 同类 型 的 数据 。 


但 是 ，SVM 模型 也 有 一 些 缺 点 。 


。 随 着 样本 量 N 的 不 断 增加 ， 最 差 的 训练 时 间 复 杂 度 会 al 经 过 高 效 处 理 后 ， 也 
只 能 达到 GC [N]。 因 此 ， 大 样本 学 习 的 计算 成 本 会 非常 

。 训练 效果 非常 依赖 于 边界 软化 参数 C 的 选择 是 否 合理 ， 这 需要 通过 十 交叉 检验 自行 搜索 ， 

当 数 据 集 较 大 时 ， 计 算 量 也 非常 大 。 















































。 预测 结果 不 能 直接 进行 概率 解释 。 这 一 点 可 以 通过 内 部 交叉 检验 进行 评估 (具体 请 参见 
SVC 的 probability 参数 的 定义 ) ， 但 是 评估 过 程 的 计算 量 也 很 大 。 


由 于 这 些 限制 条 件 的 存在 ， 我 通常 只 会 在 其 他 简单 、 快 速 、 调 优 难度 小 的 方法 不 能 满足 需 
求 时 ， 才 会 选择 支持 向 量 机 。 但 是 ， 如 果 你 的 计算 资源 足以 支撑 SVM 对 数据 集 的 训练 和 
交叉 检验 ， 那 么 用 它 一 定 能 获得 极 好 的 效果 。 


5.8 专题 : 决策 树 与 随机 森林 


前 文 详细 介绍 了 一 个 简单 的 分 类 器 〈 朴 素 贝 叶 斯 分 类 器 ， 详 情 请 参见 5.5 节 ) ， 以 及 一 个 强 

大 的 判别 分 类 器 (支持 向 量 机 ， 详 情 请 参见 5.7 节 )。 下 面 将 介绍 另 一 种 强大 的 算法 一 一 无 

参数 算法 随机 森林 。 随 机 森林 是 一 种 集成 方法 ， 通 过 集成 多 个 比较 简单 的 评估 器 形成 累积 

效果 。 这 种 集成 方法 的 学 习 效 果 经 常 出 人 意料 ， 往 往 能 超过 各 个 组 成 部 分 的 总 和 ;也 就 是 

说 ， 若 干 评估 器 的 多 数 投票 (majority vote) 的 最 终 效果 往往 优 于 单个 评估 器 投票 的 效果 ! 

后 面 将 通过 示例 来 演示 ， 首 先 还 是 导入 标准 的 程序 库 : 
In[1]: %matplotlib inline 
import numpy as np 


import matplotlib.pyplot as plt 
import seaborn as sns; sns.set() 


5.8.1 随机 森林 的 诱因 : 决策 树 

随机 森林 是 建立 在 决策 树 基 础 上 的 集成 学 习 器 。 因 此 ， 首 先 来 介绍 一 下 决策 树 。 

决策 树 采 用 非常 直观 的 方式 对 事物 进行 分 类 或 打 标签 :你 只 需 问 一 系列 问题 就 可 以 进行 分 
类 了 。 例 如 ， 如 果 你 想 建 一 棵 决策 树 来 判断 旅行 时 遇 到 的 一 只 动物 的 种 类 ， 你 就 可 以 提出 
如 图 5-67 所 示 的 问题 。 
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图 5-67: 二 叉 决 策 树 


二 又 树 分 支 方法 可 以 非常 有 效 地 进行 分 类 : 在 一 棵 结构 合理 的 决策 树 中 ， 每 个 问题 基本 
上 都 可 将 种 类 可 能 性 减 半 ， 即 使 是 对 大 量 种 类 进行 决策 时 ， 也 可 以 很 快 地 缩小 选择 范围 。 


> 1m 


长 角 了 吗 ? 






yes 
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不 过 ， 决 策 树 的 难点 在 于 如 何 设计 每 一 步 的 问题 。 在 实现 决策 树 的 机 器 学 习 算 法 中 ， 问 
题 通常 因 分 类 边界 是 与 特征 轴 平 行 ” 的 形式 分 割 数据 而 造成 的 ;也 就 是 说 ， 决 策 树 的 每 个 
节点 都 根据 一 个 特征 的 国 值 将 数据 分 成 两 组 。 下 面 通过 示例 来 演示 。 

1. 创建 一 棵 决策 树 
看 看 下 面 的 二 维 数据 ， 它 一 共有 四 种 标签 《如 图 5-68 所 示 ) : 


In[2]: from sklearn.datasets import make_blobs 


了 




















X, y = make_blobs(n_samples=300, centers=4, 
random_state=0, cluster_std=1.0) 
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='rainbow'); 
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图 5-68: 决策 树 分 类 器 数据 


在 这 组 数据 上 构建 的 简单 决策 树 不 断 将 数据 的 一 个 特征 或 另 一 个 特征 按照 某 种 判定 条 件 进 
行 分 割 。 每 分 割 一 次 ， 都 将 新 区 域内 点 的 多 数 投票 结果 标签 分 配 到 该 区 域 上 。 图 5-69 展示 
了 决策 树 对 这 组 数据 前 四 次 分 割 的 可 视 化 结果 。 
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图 5-69: 决策 树 分 割 数据 的 过 程 


需要 注意 的 是 ， 在 第 一 次 分 割 之 后 ， 上 半 个 分 文 里 的 所 有 数据 点 都 没有 变化 ， 因 此 这 个 分 
支 不 需要 继续 分 割 。 除 非 一 个 节点 只 包含 一 种 颜色 ， 那 么 每 次 分 割 都 需要 按照 两 种 特征 中 
的 一 种 对 每 个 区 域 进行 分 割 。 


























注 5: 其 实 也 有 多 变量 决策 树 可 以 获得 多 特征 线性 组 合 的 决策 边界 。 一 一 译 者 注 





大 
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如 果 想 在 Scikit-Learn 中 使 用 决策 树 拟 合 数据 ， 可 以 用 DecisionTreeClassifier 评估 器 : 


In[3]: from sklearn.tree import DecisionTreeClassifier 
tree = DecisionTreeClassifier().fit(X, y) 


快速 写 一 个 辅助 函数 ， 对 分 类 器 的 结果 进行 可 视 化 : 


In[4]: def visualize classifier(model, X, y, ax=None, cmap='rainbow'): 
ax = ax or plt.gca() 








# 画 出 训练 数据 

ax.scatter(X[:, 0], X[:, 1], c=y, s=30, cmap=cmap, 
clim=(y.min(), y.max()), zorder=3) 

ax.axis('tight') 

ax.axis('off') 

xlim = ax.get xlim() 

ylim = ax.get_yLim() 


# 用 评估 器 拟 合 数据 

model.fit(X, y) 

xx, yy = np.meshgrid(np.linspace(*xlim, num=200), 
np.linspace(*ylim, num=200)) 

Z = model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape) 


# 为 结果 生成 彩色 图 

n_classes = len(np.unique(y)) 

contours = ax.contourf(xx, yy, Z, alpha=0.3, 
levels=np.arange(n_classes + 1) - 0.5， 
cmap=cmap, clim=(y.min(), y.max()), 
zorder=1) 

















ax.set(xlim=xlim, ylim=ylim) 


现在 就 可 以 检查 决策 树 分 类 的 结果 了 (如 图 5-70 所 示 ) : 


In[5]: visualize classifier(DecisionTreeClassifier(), X, y) 



































图 5-70: 决策 树 分 类 可 视 化 
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如 果 你 正在 运行 Notebook， 那 么 可 以 用 在 线 附 了 录 (https://github.com/jakevdp/ 
PythonDataScienceHandbook) 里 的 辅助 脚本 (helpers_05_08.py) 来 生成 决策 树 创建 过 程 的 
交互 式 可 视 化 (如 图 5-71 所 示 ) : 
In[6]: # helpers_05_08.py 文 件 位 于 在 线 附录 
# (https://github.com/jakevdp/PythonDataScienceHandbook) 


import helpers_05_08 
helpers_05 08.plot tree_ interactive(X, y); 

















图 5-71， 交 互 式 决策 树 组 件 的 第 一 帧 画面 ， 完 整 内 容 请 参见 在 线 附录 (https://github.com/jakevdp/ 
PythonDataScienceHandbook) 


请 注意 ， 随 着 决策 树 深 度 的 不 断 增加 ， 我 们 可 能 会 看 到 形状 非常 奇怪 的 分 类 区 域 。 例 如 ， 
在 深度 为 5 的 时 候 ， 在 黄色 与 蓝 色 区 域 中 间 有 一 个 狭长 的 浅 紫色 区 域 。 这 显然 不 是 根据 数 
据 本 身 的 分 布 情况 生成 的 正确 分 类 结果 ， 而 更 像 是 一 个 特殊 的 数据 样本 或 数据 噪音 形成 的 
干扰 结果 。 也 就 是 说 ， 这 棵 决策 树 刚刚 分 到 第 5 层 ， 数 据 就 出 现 了 过 拟 合 。 

2. 决策 树 与 过 拟 合 

这 种 过 拟 合 其 实 正 是 决策 树 的 一 般 必 性 一 一 决策 树 非 常 容 易 陷 得 很 深 因此 往往 会 拟 合 局 部 
数据 ， 而 没有 对 整个 数据 分 布 的 大 局 观 。 换 个 角度 看 这 种 过 拟 合 ， 可 以 认为 模型 训练 的 是 数 
据 的 不 同 子 集 。 例 如 ， 在 图 5-72 中 我 们 训练 了 两 棵 不 同 的 决策 树 ， 每 棵 树 拟 合 一 半数 据 。 




















图 5-72: 两 棵 随机 决策 树 
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显然 ， 在 一 些 区 域 ， 两 棵 树 产生 了 一 致 的 结果 (例如 4 个 角 上 ) ， 而 在 另 一 些 区 域 ， 两 棵 
树 的 分 类 结果 差异 很 大 (例如 两 类 接壤 的 区 域 )。 不 一 致 往往 都 发 生 在 分 类 比较 模糊 的 地 
方 ， 因 此 假如 将 两 棵 树 的 结果 组 合 起 来 ， 可 能 就 会 歼 得 更 好 的 结果 ! 


如 果 你 正在 运行 Notebook， 可 以 用 下 面 的 函数 交互 地 浏览 决策 树 对 数据 随机 子 集训 练 的 结 
果 (如 图 5-73 所 示 ) : 


In[7]: # heLpers_05_08.py 文 件 位 于 在 线 附录 
# (https://github.com/jakevdp/PythonDataScienceHandbook) 
import helpers_05_08 
helpers_05_08.randomized_tree_interactive(X, y) 








" 
























































图 5-73: 交互 式 随机 决策 树 组 件 的 第 一 帧 画面 ， 完 整 内 容 请 参见 在 线 附录 














就 像 用 两 棵 决策 树 的 信息 改善 分 类 结果 一 样 ， 我 们 可 能 想 用 更 多 决策 树 的 信息 来 改善 分 类 
结果 。 


5.8.2 ”评估 器 集成 算法 : 随机 森林 

通过 组 合 多 个 过 拟 合 评估 器 来 降低 过 拟 合 程度 的 想法 其 实 是 一 种 集成 学 习 方 法 ， 称 为 装 袋 
算法 。 装 袋 算 法 使 用 并 行 评 估 器 对 数据 进行 有 放 回 抽取 集成 〈 也 可 以 说 是 大 杂烩 ) ， 每 个 
评估 器 都 对 数据 过 拟 合 ， 通 过 求 均值 可 以 获得 更 好 的 分 类 结果 。 随 机 决策 树 的 集成 算法 就 
是 随机 森林 。 
我 们 可 以 用 Scikit-Learn 的 BaggingClassifier 元 评估 器 来 实现 这 种 装 袋 分 类 器 (如 图 5-74 
所 示 ) : 


In[8]: from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import BaggingClassifier 



































tree = DecisionTreeClassifier() 
bag = BaggingClassifier(tree, n_estimators=100, max_samples=0.8, 
random_state=1) 


visuyalize classifier(bag, X, y) 
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图 5-74: 随机 决策 树 的 集成 算法 的 决策 边界 


在 这 个 示例 中 ， 我 们 让 每 个 评估 器 拟 合 样本 80% 的 随机 数 。 其 实 ， 如 果 我 们 用 随机 方法 
(stochasticity) 确定 数据 的 分 割 方式 ， 决 策 树 拟 合 的 随机 性 会 更 有 效 ， 这 样 做 可 以 让 所 有 
数据 在 每 次 训练 时 都 被 拟 合 ， 但 拟 合 的 结果 却 仍然 是 随机 的 。 例 如 ， 当 需要 确定 对 哪个 特 
征 进行 分 割 时 ， 随 机 树 可 能 会 从 最 前 面 的 几 个 特征 中 挑选 。 关 于 随机 策略 选择 的 更 多 技术 
细节 ， 请 参考 Scikit-Learn 文档 (http://scikit-learn.org/stable/modules/ensemble.html#forest) 。 
在 Scikit-Learn 里 对 随机 决策 树 集成 算法 的 优化 是 通过 RandomForestClassifier 评估 器 实 
现 的 ， 它 会 自动 进行 随机 化 决策 。 你 只 要 选择 一 组 评估 器 ， 它 们 就 可 以 非常 快速 地 完成 
(如 果 需 要 可 以 并 行 计算 ) 每 棵 树 的 拟 合 任务 (如 图 5-75 所 示 ) : 


In[9]: from sklearn.ensemble import RandomForestClassifier 






































model = RandomForestClassifier(n_estimators=100, random_state=0) 
visuyalize classifier(model, X, y); 

















图 5-75: 随机 森林 的 决策 边界 ， 优 化 过 的 决策 树 集成 算法 
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从 图 中 可 以 看 出 ， 如 有 果 使 用 100 棵 随机 决策 树 ， 就 可 以 得 到 一 个 非常 接近 我 们 直觉 的 “ 关 
于 数据 空间 应 该 如 何 分 割 ”的 整体 模型 。 


5.8.3 随机 森林 回归 











前 面 介 绍 了 随机 森林 分 类 的 内 容 。 其 实 随机 森林 也 可 以 用 作品 


离散 变量 )。 
非常 类 似 。 





7 











In[10]: 


下 面 的 数据 通过 























归 (处 到 





连续 变量 ， 而 不 是 


随机 森林 回归 的 评估 器 是 RandomForestRegressor， 其 语法 与 我 们 之 前 看 到 的 





快慢 振荡 组 合 而 成 (如 图 5-76 所 示 ) : 


rng = np.random.RandomState(42) 
x = 10 * rng.rand(200) 





def model(x, sigma=0.3): 
fast_oscillation = np.sin(5 * x) 
slow_oscillation = np.sin(0.5 * x) 
noise = sigma * rng.randn(len(x)) 


return slow_oscillation + fast oscillation + noise 


= model(x) 
plt.errorbar(x, y, 0.3, fmt="'0'); 








-3 
0 2 4 6 8 








图 5-76: 随机 森林 回归 数据 
通过 随机 森林 回归 器 ， 可 以 获得 下 面 的 最 佳 拟 合 曲 线 (如 图 5-77 所 示 ) : 


In[11]: 























from sklearn.ensemble import RandomForestRegressor 
forest = RandomForestRegressor(200) 
forest.fit(x[:, None], y) 


xfit = np.linspace(0, 10, 1000) 
yfit = forest.predict(xfit[:, None]) 
ytrue = model(xfit, sigma=0) 
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plt.errorbar(x, y, 0.3, fmt='0', alpha=0.5) 
plt.plot(xfit, yfit, '-r'); 
plt.plot(xfit, ytrue, '-k', alpha=0.5); 











3 








图 5-77: 随机 森林 拟 合 数据 

真实 模型 是 平滑 曲线 ， 而 随机 森林 模型 是 锯齿 线 。 从 图 中 可 以 看 出 ， 无 参数 的 随机 森林 模 
型 非常 适合 处 理 多 周期 数据 ， 不 需要 我 们 配置 多 周期 模型 | 

5.8.4 案例 : 用 随机 森林 识别 手写 数字 


前 面 简 单 介绍 过 手写 数字 数据 集 (详情 请 参见 5.2 节 )。 再 一 次 使 用 这 些 数据 ， 看 看 随机 森 
林 分 类 器 如 何 解 决 这 个 问题 : 














In[12]: 


Out[12] 





from sklearn.datasets import load digits 
digits = load digits() 
digits.keys() 


: dict keys(['target', 'data', 'target names', 'DESCR', 'images']) 


显示 前 几 个 数字 图 像 ， 看 看 分 类 的 对 象 (如 图 5-78 所 示 ) : 


In[13] : 








# 设置 图 形 对 象 
fig = plt.figure(figsize=(6, 6)) # 以 英寸 为 单位 


fig.sub 


plots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0.05) 


# 画 数 字 : 每 个 数字 是 8 像素 x 8 像素 


for i i 
ax 
ax . 


# 月 


dX. 





n range(64): 
= fig.add_subplot(8, 8, i + 1, xticks=[], yticks=[]) 
imshow(digits.images[i], cmap=plt.cm.binary, interpolation='nearest') 


日 target 值 给 图 像 作 标注 
text(0, 7, str(digits.target[i])) 
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图 5-78: 手写 数字 图 像 


用 随机 森林 快速 对 数字 进行 分 类 (如 图 


In[14]: 





5-79 所 示 ) : 


from sklearn.cross_validation import train test _ split 


Xtrain, Xtest, ytrain, ytest = train test_split(digits.data, digits.target, 


random_state=0) 


model = RandomForestClassifier(n_estimators=1000) 
model.fit(Xtrain, ytrain) 
ypred = model.predict(Xtest) 


看 看 分 类 器 的 分 类 结果 报告 : 


In[15]: from sklearn import metrics 
print(metrics.classification_report(ypred, ytest)) 
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为 了 更 好 地 验证 结果 ， 画 出 混淆 矩阵 (如 图 5-79 所 示 ) : 


In[16]: from sklearn.metrics import confusion matrix 
mat = confusion_matrix(ytest, ypred) 
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False) 
plt.xlabel('true label') 
plt.ylabel('predicted label'); 














4 


predicted label 





true label 











图 5-79: 用 随机 森林 识别 手写 数字 的 混淆 和 矩 阵 


我 们 会 发 现 ， 用 一 个 简单 、 未 调 优 的 随机 森林 对 手写 数字 进行 分 类 ， 就 可 以 取得 非常 好 的 
分 类 准确 率 。 


5.8.5 随机 森林 总 结 

这 一 节 首 先 简 要 介绍 了 集成 评估 器 的 概念 ， 然 后 重点 介绍 了 随机 森林 模型 一 一 一 种 随机 决 

策 树 集成 算法 。 随 机 森林 是 一 种 强大 的 机 器 学 习 方法 ， 它 的 优势 在 于 以 下 几 点 。 

。 因为 决策 树 的 原理 很 简单 ， 所 以 它 的 训练 和 预测 速度 者 非常 快 。 允 外 ， 多 任务 可 以 直接 
并 行 计 算 ， 因 为 每 棵 树 都 是 完全 独立 的 。 


。 多 棵 树 可 以 进行 概率 分 类 : 多 个 评估 器 之 间 的 多 数 投票 可 以 给 出 概率 的 估计 值 (使 用 
Scikit-Learn 的 predict_proba( ) 方法 )。 


。 无 参数 模型 很 灵活 ， 在 其 他 评估 器 都 从 拟 合 的 任务 中 表现 突出 。 


ee 也 就 是 说 ， 如 果 你 想 要 总 结 分 类 模型 的 意 
义 ， 随 机 森林 可 能 不 是 最 佳 选择 。 


5.9 专题 : 主 成 分 分 析 


在 前 面 的 内 容 里 ， 我 们 详细 介绍 了 有 监督 评估 器 : 这 些 评估 器 对 带 标签 的 数据 进行 训练 ， 



























































从 而 预测 新 数据 的 标签 。 后 面 将 介绍 几 个 无 监督 评估 器 ， 这 些 评估 器 可 以 从 无 标签 的 数据 
中 挖掘 出 有 趣 的 信息 。 


这 一 节 将 介绍 主 成 分 分 析 (principal component analysis，PCA)， 它 可 能 是 应 用 最 广 的 无 
监督 算法 之 一 。 虽 然 PCA 是 一 种 非常 基础 的 降 维 算法 ， 但 它 仍然 是 一 个 非常 有 用 的 工具 ， 
尤其 适用 于 数据 可 视 化 、 品 音 过 滤 、 特 征 抽 取 和 特征 工程 等 领域 。 我 们 首先 简单 介绍 PCA 
算法 的 概念 ， 再 通过 几 个 示例 演示 PCA 更 高 级 的 应 用 。 还 是 先导 入 需要 用 的 程序 包 : 
In[1]: %matplotlib inline 
import numpy as np 


import matplotlib.pyplot as plt 
import seaborn as sns; sns.set() 


5.9.1 主 成 分 分 析 简 介 


主 成 分 分 析 是 一 个 快速 灵活 的 数据 降 维 无 监督 方法 ，5.2 市 已 经 对 该 算法 作 过 初步 介绍 。 
下 面 来 可 视 化 一 个 包含 200 个 数据 点 的 二 维 数据 集 ， 从 而 演示 该 算法 的 操作 (如 图 5-80 
所 示 ) : 
In[2]: rng = np.random.RandomState(1) 
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T 
plt.scatter(X[:, 0], Xx[:, 1]) 
plt.axis('equal'); 
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图 5-80: PCA 算法 的 数据 示例 


从 图 中 可 以 看 出 ，x 变量 和 y 变量 显然 具有 线性 关系 ， 这 使 我 们 回想 起 5.6 节 介 绍 的 线性 
回归 数据 。 但 是 这 里 的 问题 稍 有 不 同 : 与 回归 分 析 中 希望 根据 x 值 预测 y 值 的 思路 不 同 ， 
无 监督 学 习 希 望 探索 x 值 和 y 值 之 间 的 相关 性 。 

在 主 成 分 分 析 中 ， 一 种 量化 两 变量 间 关 系 的 方法 是 在 数据 中 找到 一 组 主轴 ， 并 用 这 些 主轴 
来 描述 数据 集 。 利 用 Scikit-Learn 的 PCA 评 佑 器， 可 以 进行 如 下 计算 : 
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In[3]: from sklearn.decomposition import PCA 
pca = PCA(Cn_components=2) 
pca.fit(X) 
Out[3]: PCA(copy=True, n_components=2, whiten=False) 
该 拟 合 从 数据 中 学 习 到 了 一 些 指 标 ， 其 中 最 重要 的 是 “成 分 ”和 “可 解释 差异 ”: 


In[4]: print(pca.components_) 





[ 4446029 0.32862557] 


2862557 -0.94446029]] 


WD 


[ 0 
[ 0. 
In[5]: print(pca.expLained_variance_) 
[ 0.75871884 0.01838551] 


为 了 查看 这 些 数字 的 含义 ， 在 数据 图 上 将 这 些 指标 以 向 量 形式 画 出 来 ， 用 “成 分 ”定义 向 
量 的 方向 ， 将 “可 解释 差异 ”作为 向 量 的 平方 长 度 (如 图 5-81 所 示 ) : 


In[6]: def draw_vector(vO, v1i, ax=None): 
ax = ax or plt.gca() 
arrowprops=dict(arrowstyLe=' ->'， 
linewidth=2,， 
shrinkA=0, shrinkB=0) 
ax.annotate('', v1i, vO, arrowprops=arrowprops) 











ps 





# 画 出 数据 
plt.scatter(X[:, 0], X[:, 1], alpha=0.2) 
for length, vector in zip(pca.explained variance_, pca.components ): 
Vv = vector * 3 * np.sqrt(Length) 
draw_vector(pca.mean_, pca.mean_ + V) 
plt.axis('equal'); 
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这 些 向 量 表示 数据 主轴 ， 图 5-81 的 箭头 长 度 表示 输入 数据 中 各 个 轴 的 “重要 程度 ” 更 
准确 地 说 ， 它 衡量 了 数据 投影 到 主轴 上 的 方差 的 大 小 。 每 个 数据 点 在 主轴 上 的 投影 就 是 数 


据 的 “ 主 成 分 ”。 
如 果 将 原始 数据 和 这 些 主 成 分 都 画 出 来 ， 将 得 到 如 
































图 5-82 所 示 的 结果 。 








principal components 





component 2 











5-82: 数据 主轴 的 变换 


这 种 从 数据 的 坐标 轴 变 换 到 主轴 的 变换 是 一 个 仿 射 变换 ， 仿 射 变换 包含 平移 (translation)、 
旋转 (rotation) 和 均匀 缩放 (uniform scaling) 三 个 步骤 。 

虽然 这 个 寻找 主 成 分 的 算法 看 起 来 就 像 是 在 解数 学 迹 题 ， 但 是 主 成 分 分 析 在 现实 的 机 器 学 
习 和 数据 探索 中 有 着 非常 广泛 的 应 用 。 

1. 用 PCA 降 维 

用 PCA 降 维 意味 着 去 除 一 个 或 多 个 最 小 主 成 分 ， 从 而 得 到 一 个 更 低 维 度 且 保留 最 大 数据 
方差 的 数据 投影 。 

一 个 利用 PCA 作 降 维 变 换 的 示例 如 下 所 示 : 


In[7]: pca = PCA(n_components=1) 
pca.fit(X) 
X_pca = pca.transform(X) 
print("original shape: ", X.shape) 
print("transformed shape:", X_pca.shape) 

















original shape: (200, 2) 
transformed shape: (200, 1) 


变换 的 数据 被 投影 到 一 个 单一 维度 。 为 了 理解 降 维 的 效果 ， 我 们 来 进行 数据 降 维 的 逆 变 
换 ， 并 且 与 原始 数据 一 起 画 出 (如 图 5-83 所 示 ) : 
In[8]: X_new = pca.inverse_ transform(X_pca) 
plt.scatter(X[:, 0], X[:, 1], alpha=0.2) 
plt.scatter(X_new[:, 0], X_new[:, 1], alpha=0.8) 
plt.axis('equal'); 
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图 5-83: PCA 降 维 的 可 视 化 


浅 色 的 点 是 原始 数据 ， 深 色 的 点 是 投影 的 版 本 。 我 们 可 以 很 清楚 地 看 到 PCA 降 维 的 含义 
沿 着 最 不 重要 的 主轴 的 信息 都 被 去 除了 ， 仅 留 下 了 含有 最 高 方差 值 的 数据 成 分 。 被 去 除 的 
那 一 小 部 分 方差 值 〈 与 主轴 上 分 布 的 点 成 比例 ， 如 图 5-83 所 示 ) 基本 可 以 看 成 是 数据 在 降 
维 后 损失 的 “信息 ” 量 。 

这 种 降 维 后 的 数据 集 在 某 种 程度 上 是 以 体现 数据 中 最 主要 的 关系 : 虽然 有 50% 的 数据 维度 
被 削减 ， 但 数据 的 总 体 关 系 仍 然 被 大 致 保留 了 下 来 。 

2. 用 PCA 作 数据 可 视 化 : 手写 数字 

降 维 的 有 用 之 处 在 数据 仅 有 两 个 维度 时 可 能 不 是 很 明显 ， 但 是 当 数 据 维 度 很 高 时 ， 它 的 价 
值 就 有 所 体现 了 。 为 了 证 明 这 一 点 ， 来 介绍 一 个 将 PCA 用 于 手写 数字 数据 的 应 用 (详情 
请 参见 5.8 节 ) 。 

首先 导入 数据 : 


In[9]: from sklearn.datasets import load digits 
digits = load_ digits() 
digits.data.shape 






































Out[9] : 
(1797, 64) 


前 面 介绍 过 ， 该 数据 包含 8 像素 x 8 像素 的 图 像 ， 也 就 是 说 它 是 64 维 的。 为 了 获得 这 些 

数据 点 间 关 系 的 直观 感受 ， 使 用 PCA 将 这 些 数据 投影 到 一 个 可 操作 的 维度 ， 比 如 说 二 维 : 
In[16]: pca = PCA(2) # 从 64 维 投影 至 二 维 
projected = pca.fit transform(digits.data) 


print(digits.data.shape) 
print(projected. shape) 



































(1797, 64) 
(1797, 2) 
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画 出 每 个 点 的 前 两 个 主 成 分 ， 更 好 地 了 解数 据 (如 图 5-84 所 示 ) : 


In[11]: plt.scatter(projected[:, 0], projected[:, 1], 
c=digits.target, edgecolor='none', alpha=0.5, 
cmap=plt.cm.get_cmap('spectral' , 10)) 

plt.xlabel('component 1') 
plt.ylabel('component 2') 
plt.colorbar(); 
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图 5-84: 将 PCA 用 于 手写 数字 数据 


我 们 已 经 介绍 过 这 些 成 分 的 含义 : 整个 数据 是 一 个 64 维 的 点 云 ， 而 且 这 些 点 还 是 每 个 数 
据点 沿 着 最 大 方差 方向 的 投影 。 我 们 找到 了 在 64 维 空间 中 最 优 的 延伸 和 旋转 方案 ， 使 得 
我 们 可 以 看 到 这 些 点 在 二 维 平面 的 布局 。 上 述 工作 都 是 以 无 监督 的 方式 进行 的 ， 即 没有 参 
考 标签 。 
3. 成 分 的 含义 
我 们 可 以 进一步 提出 问题 : 削减 的 维度 有 什么 含义 ? 可 以 从 基 向 量 的 组 合 角度 来 理解 这 个 
问题 。 例 如 ， 训 练 集中 的 每 幅 图 像 都 是 由 一 组 64 像素 值 的 集合 定义 的 ， 将 称 其 为 向 量 x 
X= [cb Xo, Xs 264] 
我 们 可 以 用 像素 的 概念 来 理解 。 也 就 是 说 ， 为 了 构建 一 幅 图 像 ， 将 向 量 的 每 个 元 素 与 对 应 
描述 的 像素 (单位 列 向 量 ) 相 乘 ， 然 后 将 这 些 结果 加 和 就 是 这 副 图 像 ; 
image(X)= 2 (pixel 1)+x (pixel 2)+ 2 (pixel 3)…X64， (pixel 64) 
我 们 可 以 将 数据 的 降 维 理解 为 删除 绝 大 部 分 元 素 ， 仅 保留 少量 元 素 的 基 问 量 (basis 
vector) 。 例 如 ， 如 果 仅 使 用 前 8 个 像素 ， 我 们 会 得 到 数据 的 8 维 投影 (如 图 5-85 所 示 )。 
但 是 它 并 不 能 反映 整 幅 图 像 ， 因 为 我 们 丢掉 了 几乎 90% 的 像素 信息 。 
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图 5-85: 一 个 通过 丢弃 像素 信息 达成 的 降 维 


面板 的 上 面 一 行 是 单独 的 像素 信息 ， 下 面 一 行 是 这 些 像素 值 的 累加 ， 累 加 值 最 终 构 成 这 幅 
图 像 。 如 果 仅 使 用 8 个 像素 成 分 ， 就 仅 能 构建 这 个 64 像素 图 像 的 一 小 部 分 。 只 有 使 用 该 
序列 和 全 部 的 64 像素 ， 才 能 恢复 原始 图 像 。 


但 是 逐 像素 表示 方法 并 不 是 选择 基 向 量 的 唯一 方式 。 我 们 也 可 以 使 用 其 他 基 函 数 ， 这 些 基 
函数 包含 预定 义 的 每 个 像素 的 贡献 ， 如 下 所 示 : 


image(x) = mean + x1* (basis 1) +x» (basis 2) + x (basis 3)… 


PCA 可 以 被 认为 是 选择 最 优 基 函数 的 过 程 ， 这 样 将 这 些 基 函 数 中 前 几 个 加 起 来 就 足以 重 构 
数据 集中 的 大 部 分 元 素 。 用 低 维 形式 表现 数据 的 主 成 分 ， 其 实 就 是 与 序列 每 一 个 元 素 相 乘 
的 系数 。 图 5-86 是 用 均值 加 上 前 8 个 PCA 基 函 数 重 构 数 字 的 效果 。 


由 让 
LCA 


图 5-86: 通过 丢弃 最 不 重要 的 主 成 分 实现 降 维 的 巧妙 方法 (与 图 5-85 相 比 ) 


与 像素 基 不 同 ，PCA 基 可 以 通过 为 一 个 均值 加 上 8 个 成 分 ， 来 恢复 输入 图 像 最 显著 的 特 
征 。 每 个 成 分 中 像素 的 数量 必然 是 二 维 数据 示例 中 向 量 的 方向 。 这 就 是 PCA 提供 数据 的 
低 维 表示 的 原理 ， 它 发 现 一 组 比 原始 的 像素 基 向 量 更 能 有 效 表示 输入 数据 的 基 函 数 。 


4. 选择 成 分 的 数量 
在 实际 使 用 PCA 的 过 程 中 ， 正 确 估计 用 于 描述 数据 的 成 分 的 数量 是 非常 重要 的 环节 。 我 
们 可 以 将 累计 方差 贡献 率 看 作 是 关于 成 分 数量 的 函数 ， 从 而 确定 所 需 成 分 的 数量 (如 图 
5-87 所 示 ) : 
In[12]: pca = PCA().fit(digits.data) 
plt.plot(np.cumsum(pca.explained_variance_ratio_ )) 


plt.xlabel('number of components') 
plt.ylabel('cumulative explained variance'); 


这 个 曲线 量化 了 在 前 个 主 成 份 中 包含 了 多 少 总 的 64 维 的 方差 。 例 如 ， 可 以 看 到 前 10 个 
成 分 包含 了 几乎 75% 的 方差 。 因 此 ， 如 果 你 希望 描述 接近 100% 的 方差 ， 那 么 就 需要 大 约 
50 个 成 分 。 
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图 5-87: 累计 方差 贡献 率 ， 表 示 PCA 保留 数据 内 容 的 性 能 


由 图 可 知 ， 二 维 的 投影 会 损失 很 多 信息 (正如 解释 方差 所 表示 的 )。 我 们 需要 大 约 20 个 成 
分 来 保持 90% 的 方差 。 从 一 个 更 高 维 的 数据 集 来 看 这 张 图 可 以 帮助 你 理解 多 次 观察 中 元 余 
的 水 平 。 


5.9.2 ”用 PCA 作 噪音 过 滤 


PCA 也 可 以 被 用 作 噪 音 数据 的 过 站 方法 一 一 任何 成 分 的 方差 都 远大 于 噪音 的 方差 ， 所 以 相 
比 于 噪音 ， 成 分 应 该 相对 不 受 影响 。 因 此 ， 如 果 你 仅 用 主 成 份 的 最 大 子 集 重 构 该 数据 ， 那 
么 应 该 可 以 实现 选择 性 保留 信号 并 且 丢 弃 噪音 。 


用 手写 数字 数据 看 看 如 何 实现 噪音 过 滤 。 首 先 画 出 几 个 无 噪音 的 输入 数据 (如 图 5-88 
所 示 ) : 


In[13]: def plot_digits(data): 
fig, axes = plt.subplots(4, 10, figsize=(10, 4),， 
subplot_ kw={'xticks':[], 'yticks':[]}, 
gridspec_ kw=dict(hspace=0.1, wspace=0.1)) 
for i, ax in enumerate(axes.flat): 
ax.imshow(data[il].reshape(8, 8), 
cmap='binary', interpolation='nearest', 
clim=(0, 16)) 
plot_digits(digits.data) 


现在 添加 一 些 随 机 噪音 并 创建 一 个 噪音 数据 集 ， 重 新 画图 (如 图 5-89 所 示 ) : 


In[14]: np.random.seed(42) 
noisy = np.random.normal(digits.data, 4) 
plot_digits(noisy) 
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图 5-88: 没有 噪音 的 手写 数字 
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图 5-89: 加 上 高 斯 随机 噪音 的 数字 
通过 肉眼 观察 ， 可 以 很 清楚 地 看 到 图 像 是 带 噪 音 的 ， 也 包含 错误 的 像素 。 用 噪音 数据 训练 
一 个 PCA， 要 求 投影 后 保存 50% 的 方差 : 


In[15]: pca = PCA(0.50).fit(notsy) 
pca.n_components_ 


Out[15]: 12 





这 里 50% 的 方差 对 应 12 个 主 成 份 。 现 在 来 计算 出 这 些 成 分 ， 然 后 利用 逆 变 换 重 构 过 滤 后 
的 手写 数字 (如 图 5-90 所 示 ) : 
In[16]: components = pca.transform(noisy) 


filtered = pca.inverse transform(components) 
plot_digits(filtered) 





这 个 信号 保留 /噪音 过 滤 的 性 质 使 PCA 成 为 一 种 非常 有 用 的 特征 选择 方式 。 例 如 ， 与 其 在 
很 高 维 的 数据 上 训练 分 类 器 ， 你 可 以 选择 在 一 个 低 维 表示 中 训练 分 类 器 ， 该 分 类 器 将 自动 
过 滤 输 入 数据 中 的 随机 噪音 。 























图 5-90: 用 PCA 去 噪 后 的 手写 数字 


5.9.3 案例: 特征 脸 


之 前 我 们 介绍 过 一 个 将 PCA 投影 结果 作为 特征 选择 器 ， 用 支持 向 量 机 做 人 脸 识别 的 示例 
(详情 请 参见 5.7 节 )， 现 在 来 回顾 之 前 的 内 容 ， 再 探索 一 些 新 知识 。 回 想 一 下 Scikit-Learn 
中 Wild 数据 集 带 标签 的 人 脸 数据 ; 
In[17]: from sklearn.datasets import fetch_ lfw_people 
faces = fetch_lfw_people(min_faces_per_person=60) 


print(faces.target_ names) 
print(faces.images.shape) 
































['Ariel Sharon' 'Colin Powell' 'Donald Rumsfeld' 'George W Bush' 
'Gerhard Schroeder' 'Hugo Chavez' 'Junichiro Koizumi' 'Tony Blair'] 
(1348, 62, 47) 


我 们 来 看 主轴 ， 展 开 该 数据 集 。 因 为 这 是 一 个 非常 大 的 数据 集 ， 所 以 我 们 将 利用 
RandomizedPCA。 它 包含 了 一 个 随机 方法 来 估计 前 个 主 成 分 ， 比 标准 的 PCA 评估 器 速度 更 
快 ， 并 且 特 别 适用 于 高 维 数据 (这 里 的 维度 将 近 3000)。 来 看 看 前 150 个 成 分 : 

In[18]: from sklearn.decomposition import RandomizedPCA 


pca = RandomizedPCA(150) 
pca.fit(faces.data) 











Out[18]: RandomizedPCA(copy=True, iterated_power=3, Nn_components=150, 
random_state=None, whiten=False) 


将 这 个 例子 中 带 有 前 面 儿 个 主 成 分 的 图 像 可 视 化 是 非常 有 趣 的 这些 成 分 被 称 作 “ 特 征 向 

量 "， 因 此 这 些 图 像 的 类 型 通常 被 称 作 “ 特 征 脸 ”)。 正 如 你 在 图 5-91 看 到 的 ， 这 些 特征 脸 

正如 其 名 一 样 吓人 : 

In[19]: fig, axes = pLt.subpLots(3，8，figsize=(9，4)， 
subplot_ kw={"'xticks':[], 'yticks':[]}, 
gridspec_kw=dict(hspace=0.1, wspace=0.1)) 
for i, ax in enumerate(axes.flat): 
ax.imshow(pca.components_[i].reshape(62, 47), cmap='bone') 
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图 5-91: 从 LFW 数据 集中 学 习 特 征 脸 的 可 视 化 


结果 非常 有 趣 。 让 我 们 先 来 观察 一 下 图 像 之 间 的 不 同 : 前 面 儿 张 特征 脸 (从 左上 角 开 始 ) 
is 而 后 面 的 主 向 量 似乎 是 挑选 出 了 特定 的 特征 ， 例 如 眼 
、 鼻 子 和 嘴唇 。 来 看 看 这 些 成 分 的 累计 方差 ， 以 及 该 投影 保留 了 多 少数 据 信息 (如 图 
。 92 所 示 ) : 
In[20]: plt.plot(np.cumsum(pca.explained_variance_ratio_ )) 


plt.xlabel('number of components') 
plt.ylabel('cumulative explained variance'); 
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图 5-92: LFW 数据 的 累积 解释 方差 


可 以 看 到 ， 这 150 个 成 分 包含 了 90% 的 方 关 。 这 使 我 们 相信 ， 利 用 这 150 个 成 分 可 以 恢复 
数据 的 大 部 分 必要 特征 。 为 了 使 以 上 结论 更 准确 ， 可 以 比较 输入 图 像 和 利用 这 150 个 成 分 
重 构 的 图 像 (如 图 5-93 所 示 ) : 

In[21]: # 计算 成 分 和 投影 的 人 脸 


pca = RandomizedPCA(150) .fit(faces.data) 
Components = pca.transform(faces.data) 

















projected = pca.inverse_transform(components) 


In[22]: # 画 出 结果 
fig, ax = pLt.subpLots(2，10，figsize=(10，2.5)， 
subplot_kw={"'xticks':[], 'yticks':[]}, 
gridspec_kw=dict(hspace=0.1, wspace=0.1)) 
for i in range(10): 
ax[0, i].imshow(faces.data[il].reshape(62, 47), cmap='binary_r') 
ax[1, i].imshow(projected[i].reshape(62, 47), cmap="'binary_r') 


ax[0, 0].set_ylabel('full-dim\ninput') 
ax[1, 0].set_ylabel('150-dim\nreconstruction'); 
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图 5-93: LFW 数据 的 150 维 PCA 重 构 


上 面 一 行 显示 的 是 输入 图 像 ， 而 下 面 一 行 显示 的 是 从 大 约 3000 个 原始 特征 中 精 选 出 的 50 
个 特征 重 构 的 图 像 。 这 个 可 视 化 结果 清楚 地 展示 了 为 什么 在 5.7 节 中 的 PCA 特征 选择 如 此 
成 功 : 虽然 它 将 数据 的 原始 维度 信息 缩减 了 将 近 20 倍 ， 但 是 投影 数据 还 是 包含 了 足够 的 
信息 ， 使 我 们 可 以 通过 肉眼 识别 出 图 像 中 的 人 物 。 这 说 明 我 们 的 分 类 算法 只 需要 在 150 维 
的 数据 上 训练 ， 而 不 需要 在 3000 维 的 数据 上 训练 。 维 度 的 选择 取决 于 选 定 的 算法 ， 而 选 
择 合适 的 算法 会 带 来 更 有 效 的 分 类 效果 。 


5.9.4 主 成 分 分 析 总 结 

这 一 节 讨 论 了 用 主 成 分 分 析 进 行 降 维 、 高 维 数据 的 可 视 化 、 噪 音 过 着 ， 以 及 高 维 数据 的 特 
征 选择 。 由 于 PCA 用 途 广 泛 、 可 解释 性 强 ， 所 以 可 以 有 效应 用 于 大 量 情景 和 学 科 中 。 对 
于 任意 高 维 的 数据 集 ， 我 倾向 于 以 PCA 分 析 开 始 ， 可 视 化 点 间 的 关系 (正如 手写 数字 示 
例 中 的 处 理 方式 )， 理 解数 据 中 的 主要 方差 (正如 特征 脸 示 例 中 的 处 理 方式 )， 理 解 固有 的 
维度 (通过 画 出 解释 方差 比 )。 当 然 ，PCA 并 不 是 一 个 对 每 个 高 维 数据 集 都 有 效 的 算法 ， 
但 是 它 提供 了 一 条 直接 且 有 效 的 路 径 ， 来 获得 对 高 维 数据 的 洞 罕 。 

经 常 受 数据 集 的 异常 点 影响 是 PCA 的 主要 弱点 。 因 为 这 个 理由 ， 很 多 效果 更 好 的 PCA 变 
体 被 开发 出 来 ， 这 些 PCA 变 体 方法 欠 代 执行 ,丢弃 对 原始 成 分 描述 得 很 糟糕 的 数据 点 。 
Scikit-Learn 中 有 一 些 有 趣 的 PCA 变 体 ， 包 括 RandomizedPCA 和 SparsePCA， 这 两 个 算法 也 
在 sklearn.decomposition 子 模块 中 。 我 们 刚才 看 到 的 RandomizedPCA 算法 使 用 了 一 个 非 确 
定 方法 ， 快 速 地 近似 计算 出 一 个 维度 非常 高 的 数据 的 前 几 个 主 成 分 ， 而 SparsePCA 引入 了 
一 个 正则 项 (详情 请 参见 5.6 节 ) 来 保证 成 分 的 稀 玻 性 。 

在 接 下 来 的 内 容 中 ， 我 们 将 学 习 其 他 无 监督 学 习 方法 ， 加 深 对 PCA 的 理解 。 
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5.10 专题 : 流 形 学 习 


前 面 已 经 介绍 过 如 何 用 主 成 分 分 析 降 维 一 一 它 可 以 在 减少 数据 集 特征 的 同时 ， 保 留 数据 点 
间 的 必要 关系 。 虽 然 PCA 是 一 个 灵活 、 快 速 且 容易 解释 的 算法 ， 但 是 它 对 存在 非 线性 关 
系 的 数据 集 的 处 理 效 果 并 不 大好， 我 们 将 在 后 面 介 绍 几 个 示例 。 


为 了 弥补 这 个 缺陷 ， 我 们 选择 另外 一 种 方法 流 形 学 习 (manifold learning)。 流 形 学 习 

是 一 种 无 监督 评估 器 ， i 高 维度 空间 来 描述 数据 集 。 当 

你 思考 流 形 时 ， 建 议 你 于 我 们 所 熟悉 的 三 维 世 界 中 的 二 维 物 

体 De 提 到 流 形 学 习 这 文 个 术语 时 ， 可 以 把 这 张 纸 看 成 那个 
三 维 空间 中 二 维 流 形 。 


在 三 维 空间 中 旋转 、 重 定向 或 者 伸展 这 张 纸 ， 都 不 会 改变 它 的 平面 几何 特性 : 这 些 操作 和 
线性 奏 入 类 似 。 如 果 你 弯 折 、 卷 曲 或 者 弄 争 这 张 纸 ， 它 仍然 是 一 个 二 维 流 形 ， 但 是 姐 入 到 
一 个 三 维 空间 就 不 再 是 线性 的 了 。 流 形 学 习 算 法 将 试图 学 习 这 张 纸 的 二 维特 征 ， 包 括 将 纸 
弯曲 后 放 入 一 个 三 维 空 间 中 。 


这 里 将 深入 介绍 儿 种 流 形 方法 的 技巧 ， 包 括 多 维 标 度 法 (multidimensional scaling，MDS)、 
局 部 线性 租 入 法 (locally linear embedding，LLE) 和 保 距 映射 法 (isometric mapping， 
Isomap)。 首 先 还 是 导入 标准 的 程序 库 : 

In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 


import seaborn as sns; sns.set() 
import numpy as np 








下 




































































5.10.1 流 形 学 习 : “HELLO” 


为 了 使 这 些 概 念 更 清楚 ， 先 生成 一 些 二 维 数据 来 定义 一 个 流 形 。 下 面 用 函数 创建 一 组 数 
据 ， 构 成 单词 “HELLO” 的 形状 : 


In[2]: 
def make_hello(N=1000, rseed=42): 
# 画 出 “HELLO” 文 字形 状 的 图 像 ， 并 保存 成 PNG 
fig, ax = plt.subplots(figsize=(4, 1)) 
fig.subplots_adjust(left=0, right=1, bottom=0, top=1) 
ax.axis('off') 
ax.text(0.5, 0.4, 'HELLO', va='center', ha='center', weight='bold', size=85) 
fig.savefig('hello.png') 
plt.close(fig) 



































# 打开 这 个 PNG6， 并 将 一 些 随机 点 画 进去 

from matplotlib.image import imread 

data = imread('hello.png')[::-1, :, 0].T 
rng = np.random.RandomState(rseed) 

X = rng.rand(4 * N, 2) 

i, j = (X * data.shape).astype(int).T 
mask = (data[li, j] < 1) 

X = X[mask] 

X[:，0] *= (data.shape[0] / data.shape[1]) 
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x = X[:N] 
return X[np.argsort(X[:，0])] 


调用 该 函数 并 且 画 出 结果 数据 (如 图 5-94 所 示 ) 


In[3]: X = make_hello(1000) 
colorize = dict(c=X[:, 0], cmap=plt.cm.get_cmap('rainbow', 5)) 
plt.scatter(X[:, 0], X[:, 1], **colorize) 
plt.axis('equal'); 

















图 5-94: 用 于 流 形 学 习 的 数据 


输出 图 像 包含 了 很 多 二 维 的 点 ， 它 们 组 成 了 单词 “HELLO” 的 形状 。 这 个 数据 形状 可 以 帮 
助 我 们 通过 可 视 化 的 方式 展现 算法 的 使 用 过 程 。 


5.10.2 ”多 维 标 度 法 (MDS ) 


通过 观察 这 个 数据 集 ， 可 以 看 到 数据 集中 选中 的 x 值 和 y 值 并 不 是 对 数据 的 最 基本 描述 : 
即使 放大 、 缩 小 或 旋转 数据 ,“HELLO” 仍 然 会 很 明显 。 例 如 ， 如 果 用 一 个 旋转 矩阵 来 旋 
转 数 据 ，x* 和 y 的 值 将 会 改变 ， 但 是 数据 形状 基本 还 是 一 样 的 〈 如 图 5-95 所 示 ) : 
In[4]: def rotate(X, angle): 
theta = np.deg2rad(angle) 
R = [[np.cos(theta), np.sin(theta)], 


[-np.sin(theta), np.cos(theta)]] 
return np.dot(X, R) 























X2 = rotate(X, 20) + 5 
plt.scatter(X2[:, 0], X2[:, 1], **colorize) 
plt.axis('equal'); 
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图 5-95: 旋转 数据 集 


这 说 明 x 和 y 的 值 并 不 是 数据 间 关 系 的 必要 基础 特征 。 这 个 例子 中 真正 的 基础 特征 是 每 个 
点 与 数据 集中 其 他 点 的 距离 。 表 示 这 种 关系 的 常用 方法 是 关系 (距离 ) 矩阵 : 对 于 N 个 
点 ， 构 建 一 个 N x N 的 和 矩阵， 元 素 (i ,j ) 是 点 i 和 点 j 之 间 的 距离 。 我 们 用 Scikit-Learn 中 
的 pairwise_distances 国 数 来 计算 原始 数据 的 关系 矩阵， 

In[5]: from sklearn.metrics import pairwise distances 


D = pairwise distances(X) 
D.shape 


Out[5]: (1000, 1000) 


正如 前 面 承诺 的 ， 对 于 N= 1000 个 点 ， 获 得 了 一 个 1000 x 1000 的 矩阵 。 画 出 该 矩阵 ， 如 
图 5-96 所 示 : 


In[6]: plt.imshow(D, zorder=2, cmap='Blues', interpolation='nearest') 
plt.colorbar(); 


























图 5-96: 可 视 化 数据 点 的 成 对 距离 (pairwise distances) 
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如 果 用 类 似 方法 为 已 经 做 过 旋转 和 平移 变换 的 数据 构建 一 个 距离 矩阵 ， 将 看 到 同样 的 
结果 : 
In[7]: D2 = pairwise_distances(X2) 
np.allclose(D, D2) 





Out[7]: True 


这 个 距离 矩阵 给 出 了 一 个 数据 集 内 部 关系 的 表现 形式 ， 这 种 形式 与 数据 集 的 旋转 和 投影 
关 。 但 距离 矩阵 的 可 视 化 效果 却 显 得 不 够 直观 。 图 5-96 丢失 了 我 们 之 前 在 数据 中 看 到 的 关 
于 “HELLO” 的 所 有 视觉 特征 。 


虽然 从 (x，y) 坐标 计算 这 个 距离 矩阵 很 简单 ， 但 是 从 距离 矩阵 转换 回 x 坐标 值 和 y 坐标 值 
却 非 常 困 难 。 这 就 是 多 维 标 度 法 可 以 解决 的 问题 : 它 可 以 将 一 个 数据 集 的 距离 矩阵 还 原 成 
一 个 万 维 坐 标 来 表示 数据 集 。 下 面 来 看 看 多 维 标 度 法 是 如 何 还 原 距 离 矩 阵 的 一 MDS 模 
型 将 非 相 似 性 (dissimilarity) 参数 设置 为 precomputed 来 处 理 距离 矩阵 (如 图 5-97 所 示 ) : 
In[8]: from sklearn.manifold import MDS 
model = MDS(n_components=2, dissimilarity='precomputed', random_state=1) 
out = model.fit transform(D) 


plt.scatter(out[:, 0], out[:, 1], **colorize) 
plt.axis('equal'); 
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图 5-97: 从 成 对 距离 计算 MDS 嵌入 


仅仅 依靠 描述 数据 点 间 关 系 的 N x N 距离 矩阵 ，MDS 算法 就 可 以 为 数据 还 原 出 一 种 可 行 
的 二 维 坐标 。 


5.10.3 将 MDS 用 于 流 形 学 习 


既然 距离 矩阵 可 以 从 数据 的 任意 维度 进行 计算 ， 那 么 这 种 方法 绝对 非常 实用 。 既 然 可 以 在 
一 个 二 维 平面 中 简单 地 旋转 数据 ， 那 么 也 可 以 用 以 下 函数 将 其 投影 到 三 维 空间 (特别 是 用 


前 面 介绍 过 的 三 维 旋转 矩阵 ) : 
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In[9]: def random_projection(X, dimension=3, rseed=42): 
assert dimension >= X.shape[1] 
rng = np.random.RandomState(rseed) 
C = rng.randn(dimension, dimension) 
e, V = np.linalg.eigh(np.dot(C, C.T)) 
return np.dot(X, V[:X.shape[1]]) 


X3 = random_projection(X, 3) 
X3.shape 


out[9]: (1060, 3) 
将 这 些 点 画 出 来 ， 看 看 可 视 化 效果 (如 图 5-98 所 示 ) : 


py 





In[10]: from mpl_toolkits import mplot3d 
= plt.axes(projection='3d') 
ax.scatter3D(X3[:, 0], XxX3[:, 1], Xx3[:, 2], 
**colorize) 
ax.view_ init(azim=70, elev=50) 

















5-98: 线性 谋 入 三 维 空间 的 数据 
现在 可 以 通过 MDS 评估 器 输入 这 个 三 维 数据 ， 计 算 距 离 和 矩阵 ， 然 后 得 出 距离 矩阵 的 最 优 二 
从 区 入 结果 结果 还 原 了 原始 数据 的 形状 (如 图 5-99 所 示 ) : 


In[11]: model = MDS(n_components=2, random_state=1) 
out3 = model.fit_transform(X3) 
plt.scatter(out3[:, 0], out3[:, 
plt.axis('equal'); 


























1], **colorize) 

















图 5-99: 用 MDS 模型 处 理 三 维 数据 ， 还 原 了 旋转 和 变形 的 输入 数据 形状 


以 上 就 是 使 用 流 形 学 习 评 估 器 希望 达成 的 基本 目标 : 给 定 一 个 高 维 验 和 人 数据， 寻找 数据 的 
一 个 低 维 表示 ， 并 保留 数据 间 的 特定 关系 。 在 MDS 的 示例 中 ,保留 的 数据 是 每 对 数据 点 
之 间 的 距离 。 


5.10.4 非 线性 内 入 : 当 MDS 失 败 时 


前 面 介 绍 了 线性 伐 入 模型 ， 它 包括 将 数据 旋转 、 平 移 和 缩放 到 一 个 高 维 空间 的 操作 。 但 是 
当 舱 入 为 非 线 性 时 ， 即 超越 简单 的 操作 集合 时 ，MDS 算法 就 会 失效 。 现 在 看 看 下 面 这 个 
将 输入 数据 在 三 维 空间 中 扭曲 成 “S” 形 状 的 示例 ; 


In[12]: def make_hello_s_curve(X): 
t = (X[:, 0] - 2) * 0.75 * np.pi 
x = np.sin(t) 
X[:，1] 
z = np.sign(t) * (np.cos(t) - 1) 
return np.vstack((x, y, z)).T 








XS = make_hello_s_curve(X) 


虽然 这 也 是 一 个 三 维 数据 ， 但 是 这 个 险 入 更 加 复杂 (如 图 5-100 所 示 ) : 


In[13]: from mpl_toolkits import mpLot3d 
ax = plt.axes(projection='3d') 
ax.scatter3D(XS[:, 0], XS[:, 1], XS[:, 2], 
**colorize); 
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5-100: 数据 非 线性 地 嵌入 三 维 空间 中 


虽然 数据 点 间 基 本 的 关系 仍然 存在 ， 但 是 这 次 数据 以 非 线性 的 方式 进行 了 变换 : 它 被 包 庄 
成 了 EN 形 ; 
如 果 尝 试用 一 个 简单 的 MDS 算法 来 处 理 这 个 数据 ， 就 无 法 展示 数据 非 线 性 在 入 的 特征 ， 
进而 导致 我 们 丢失 了 这 个 虑 入 式 流 形 的 内 部 基本 关系 特性 (如 图 5-101 所 示 ) : 
In[14]: from sklearn.manifold import MDS 
model = MDS(n_components=2, random_state=2) 
outS = model.fit transform(XS) 


plt.scatter(outS[:, 0], outS[:, 1], **colorize) 
plt.axis('equal'); 











3 
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5-101: 将 MDS 算法 应 用 于 非 线性 数据 时 无 法 还 原 其 内 部 结构 


即使 是 最 优 的 二 维 线性 嵌入 也 不 能 破解 $ 曲线 的 谜 题 ， 而 且 还 丢失 了 原始 数据 的 轴 
信息 。 

















5.10.5 非 线性 流 形 : 局 部 线性 骨 入 


那么 该 如 何 改进 呢 ? 在 学 习 新 的 内 容 之 前 ， 先 来 回顾 一 下 问题 的 源头 : MDS 算法 构建 嵌 
入 时 ， 总 是 期 望 保留 相距 很 远 的 数据 点 之 间 的 距离 。 但 是 如 果 修 改 算法 ， 让 它 只 保留 比较 
接近 的 点 之 间 的 距离 呢 ? 租 入 的 结果 可 能 会 与 我 们 的 期 望 更 接近 。 


可 以 将 这 两 种 思路 想象 成 图 5-102 所 示 的 情况 。 

















MDS Linkages LLE Linkages (100 NN) 


























5-102: MDS 算法 和 LLE 算法 表示 点 间距 离 的 差异 


其 中 每 一 条 细小 的 线 都 表示 在 颈 入 时 会 保留 的 距离 。 左 图 是 用 MDS 算法 生成 的 幅 入 模型 ， 
它 会 试图 保留 数据 集中 每 对 数据 点 间 的 距离 ， 右 图 是 用 流 形 学 习 算 法 局 部 线性 巾 入 (LLE) 
生成 的 幅 入 模型 ， 该 方法 不 保留 所 有 的 距离 ， 而 是 仅 保留 邻 节点 间 的 距离 选择 与 
每 个 点 最 近 的 100 个 邻 节点 


看 看 左 图 ， 就 能 够 明白 为 什么 MDS 算法 会 失效 了 : 显然 不 可 能 在 展开 数据 的 同时 ， 保 证 
每 条 线段 的 长 度 完全 不 变 。 相 比 之 下 ， 右 图 的 情况 就 更 乐观 一 些 。 我 们 可 以 想象 着 通过 某 
种 方式 将 卷曲 的 数据 展开 ， 并 且 线 段 的 长 度 基本 保持 不 变 。 这 就 是 LLE 算法 的 工作 原理 
它 通过 对 成 本 函数 的 全 局 优化 来 反映 这 个 逻辑 。 


LLE 有 好 几 种 表现 形式 ， 这 里 用 modified LLE 算法 来 还 原 骨 入 的 二 维 流 形 。 通 常情 况 下 
modified LLE 的 效果 比 用 其 他 算法 还 原 实现 定义 好 的 流 形 数据 的 效果 好 ， 它 几 乎 不 会 造成 
扭曲 (如 图 5-103 所 示 ) : 


In[15]: 

from sklearn.manifold import LocallyLinearEmbedding 

model = LocallyLinearEmbedding(n_neighbors=100, n_components=2, method='modified', 
eigen_solver='dense') 

out = model.fit transform(XS) 






















































































fig, ax = plt.subplots() 
ax.scatter(out[:, 0], out[:, 1], **colorize) 
ax.set_ylim(0.15, -0.15); 
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图 5-103: 局 部 线性 谋 入 可 以 从 非 线性 谋 入 数据 中 恢复 潜在 数据 特征 


比 起 原始 流 形 ， 这 个 结果 虽然 出 现 了 一 定 程度 的 扭曲 ， 但 还 是 保留 了 数据 的 基本 关系 
特性 。 


5.10.6 ”关于 流 形 方法 的 一 些 思 

虽然 这 个 示例 十 分 精彩 ， 但 是 由 于 流 形 学 习 在 实际 应 用 中 的 要 求 非常 严格 ， 因 此 除了 在 对 
高 维 数 据 进行 简单 的 定性 可 视 化 之 外 ， 流 形 学 习 很 少 被 正式 使 用 。 

以 下 是 流 形 学 习 的 一 些 特殊 挑战 ， 并 将 这 些 挑战 与 PCA 算法 进行 了 比较 。 


。 在 流 形 学 习 中 ， 并 没有 好 的 框架 来 处 理 缺 失 值 。 相 比 之 下 ，PCA 算法 中 有 一 个 用 于 处 

理 缺 失 值 的 迭代 方法 。 

。 在 流 形 学 习 中 ,数据 中 噪音 的 出 现 将 造成 流 形 短路 ,并且 严 重 影响 髓 入 结果 。 相 比 之 下 ， 
PCA 可 以 自然 地 从 最 重要 的 成 分 中 滤 除 噪音 。 

。 流 形 徐 入 的 结果 通常 高 度 依赖 于 所 选取 的 邻 贡 点 的 个 数 ， 并 且 通 常 没 有 确定 的 定量 方式 
来 选择 最 优 的 邻 节 点 个 数 。 相 比 之 下 ，PCA 算法 中 并 不 存在 这 样 的 问题 。 

。 在 流 形 学 习 中 ， 全 局 最 优 的 输出 维度 数 很 难 确定 。 相 比 之 下 ，PCA 可 以 基于 解释 方差 

来 确定 输出 的 维度 数 。 

。 在 流 形 学 习 中 ,你 入 维度 的 含义 并 不 总 是 很 清楚 ;而 在 PCA 算法 中 ， 主 成 分 有 非常 明 

确 的 含义 。 

。 在 流 形 学 习 中 ， 流 形 方 法 的 计算 复杂 度 为 OIN”] 或 OIN]。 而 PCA 可 以 选择 随机 方法 ， 
通常 速度 更 快 (详情 请 参见 megaman 程序 包 中 的 一 些 具有 可 扩展 能 力 的 流 形 学 习 实 现 )。 


虽然 以 上 列举 的 都 是 流 形 学 习 相 比 于 PCA 算法 的 缺点 ， 但 是 流 形 学 习 还 有 一 个 明显 的 优 
点 ， 那 就 是 它 具 有 保留 数据 中 的 非 线性 关系 的 能 力 。 正 因为 这 个 原因 ， 我 通常 的 做 法 是 : 
先 用 PCA 探索 数据 的 线性 特征 ， 再 用 流 形 方法 探索 数据 的 非 线 性 特征 。 


除了 Isomap 和 LLE，Scikit-Learn 还 实现 了 其 他 几 个 常见 的 流 形 学 习 方 法 : Scikit-Learn 文 
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档 有 一 篇 非常 精彩 的 流 形 学 习 算 法 对 比 文章 (http://scikit-learn.org/stable/modules/manifold. 
html) 。 基 于 我 的 个 人 经 验 ， 给 出 以 下 几 点 建议 。 


。 LLE 在 sklearn.manifold.LocallyLinearEmbedding 中 实现 。 它 对 于 简单 问题 ， 例 如 前 玫 
介绍 过 的 S$ 曲线 、 局 部 线性 个 入 (LLE) 及 其 变 体 (特别 是 modified LLE) 的 学 习 效果 
非常 好 。 

。 Isomap 在 sklearn.manifold.Isomap 中 实现 。 虽 然 LLE 通常 对 现实 世界 的 高 维 数据 源 的 
学 习 效 果 比 较 差 ， 但 是 Isomap 算法 往往 会 获得 比较 好 的 伐 入 效果 。 

。 tt- 分布 邻 域 戏 入 算法 (tdistributed stochastic neighbor embedding，tSNE) 在 sklearn. 
manifold.TSNE 中 实现 。 将 它 用 于 高 度 聚 类 的 数据 效果 比较 好 ， 但 是 该 方法 比 其 他 方法 
学 习 速 度 慢 。 


如 果 你 对 这 些 方法 的 工作 方式 感 兴趣 ， 那 么 我 建议 你 用 本 市 的 数据 运行 这 些 方法 ， 进 而 进 
行 对 比 。 


5.10.7 示例 : 用 lsomap 处 理 人 脸 数 据 


流 形 学 习 经 常 被 用 于 探索 高 维 数据 点 内 部 的 关系 。 常 见 的 高 维 数据 示例 就 是 图 像 数 据 。 例 
如 ， 一 组 1000 像素 的 图 像 经 常 被 看 成 是 1000 维度 的 点 集合 ， 每 幅 图 像 中 每 一 个 像素 的 亮 
度 信息 定义 了 相应 维度 上 的 坐标 值 。 


ee eh i 
个 数据 集 在 5.9 节 已 经 出 现 过 。 执 行 以 下 命令 就 会 下 载 数 据 ， 并 将 其 保存 到 代码 同 目录 
下 ， 供 后 续 使 用 ， 


In[16]: from sklearn.datasets import fetch_ lfw_people 
faces = fetch_Lfw_peopLe(min_faces_per_person=30) 
faces.data.shape 
















































































Out[16]: (2370, 2914) 


我 们 有 2370 幅 图 像 ， 每 一 幅 图 像 有 2914 个 像素 。 换 句 话 说 ， 这 些 图 像 可 以 被 看 成 是 一 个 
2914 维 空间 中 的 数据 点 的 集合 ! 


先 将 几 幅 图 像 进行 快速 可 视 化 ， 看 看 要 处 理 的 数据 (如 图 5-104 所 示 ) : 


In[17]: fig, ax = plt.subplots(4, 8, subplot kw=dict(xticks=[], yticks=[])) 
for i, axi in enumerate(ax.flat): 
axi.imshow(faces.images[i], cmap="'gray') 


dnl ee en eal 可 以 从 
计算 PCA 开始 ， 从 而 查看 解释 方差 的 比率 。 通 过 这 个 比率 ， 就 可 以 判断 需要 多 少 线性 特 
征 才 能 描述 数据 (如 图 5-105 所 示 ) : 
In[18]: from sklearn.decomposition import RandomizedPCA 
model = RandomizedPCA(100).fit(faces.data) 
plt.plot(np.cumsum(model .explained variance_ratio_ )) 


plt.xlabel('n components') 
plt.ylabel('cumulative variance'); 
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图 5-104: 人 脸 图 像 
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图 5-105:， PCA 投影 的 累积 方差 


我 们 发 现 ， 这 个 数据 大 约 需 要 100 个 成 分 才能 保存 90% 的 方差 ， 说 明 该 数据 所 需 的 维度 非 
第 高 ， 仅 通过 几 个 线性 成 分 无 法 描述 。 
由 于 存在 上 述 问 题 ， 因 此 非 线性 流 形 艇 入 方法 ， 如 LLE 和 Isomap， 就 可 以 派 上 用 场 了 。 
用 前 面 的 方法 对 这 些 人 脸 数据 计算 一 个 omap 嵌入 : 
In[19]: from sklearn.manifold import Isomap 
modeL = Isomap(n_components=2) 


proj = modeL.fit_transform(faces.data) 
proj.shape 





Out[19]: (2370，2) 


输出 的 是 对 所 有 图 像 的 一 个 二 维 投 影 。 为 了 更 好 地 理解 该 投影 表示 的 含义 ， 来 定义 一 个 函 
数 ， 在 不 同 的 投影 位 置 输出 图 像 的 缩 略图 
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In[20]: from matplotlib import offsetbox 


def plot_components(data, model, images=None, ax=None, 
thumb_frac=0.05, cmap='gray'): 
ax = ax or plt.gca() 


proj = model.fit_transform(data) 
ax.plot(proj[:, 0], proj[:, 1], '.k') 


if images is not None: 
min_dist 2 = (thumb_frac * max(proj.max(0) - proj.min(0))) ** 2 
shown_images = np.array([2 * proj.max(0)]) 
for i in range(data.shape[0]): 
dist = np.sum((proj[i] - shown_images) xx 2, 1) 
if np.min(dist) < min dist 2: 
# 不 展示 相距 很 近 的 点 
continue 
shown_images = np.vstack([shown_images, proj[i]]) 
imagebox = offsetbox.AnnotationBbox( 
offsetbox.0OffsetImage(images[i], cmap=cmap), 
proj[i]) 
ax.add_artist(imagebox) 


调用 这 个 函数 后 ， 就 可 以 看 到 以 下 结果 (如 图 5-106 所 示 ) : 


In[21]: fig, ax = plt.subplots(figsize=(10, 10)) 
plot_components(faces.data, 
modeL=Isomap(n_components=2)， 
images=faces.images[:，::2，::2]) 
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图 5-106: 人 脸 数据 的 lsomap 访 入 
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结果 非常 有 趣 。 前 两 个 Isomap 维度 仿佛 就 描述 了 图 像 的 整体 特征 : 图 像 明暗 度 从 左 至 右 
持续 变化 ， 人 脸 朝 向 从 下 到 上 持续 变化 。 这 是 一 组 非常 好 的 视觉 指标 ， 呈 现 了 数据 中 一 些 
基本 特征 。 
我 们 可 以 根据 这 个 结果 将 数据 进行 分 类 ， 并 像 5.7 节 做 过 的 那样 ， 用 流 形 特征 作为 分 类 算 
法 的 输入 数据 。 


5.10.8 示例 : 手写 数字 的 可 视 化 结构 
本 例 是 另外 一 个 使 用 流 形 学 习 进 行 可 视 化 的 例子 ， 用 到 的 是 MNIST 手写 数字 数据 集 。 该 


数据 和 我 们 在 5.8 节 中 看 到 的 数字 类 似 ， 但 是 每 幅 图 像 包 含 的 像素 更 多 。 它 可 以 用 Scikit- 
Learn 工具 从 http://mldata.org/ 下 载 ; 





























In[22]: from sklearn.datasets import fetch mldata 
mnist = fetch_mLdata('MNIST original') 
mnist.data.shape 


Out[22]: (70000, 784) 
它 包 含 了 70 000 幅 图 像 ， 每 幅 图 像 有 784 像素 (也 就 是 说 ， 图 像 是 28 像素 x 28 像素 ) 。 
与 前 面 的 处 理 方式 相同 ， 先 看 看 前 面 几 幅 图 像 (如 图 5-107 所 示 ) : 


In[23]: fig, ax = plt.subplots(6, 8, subplot kw=dict(xticks=[], yticks=[])) 
for i, axi in enumerate(ax.flat): 
axi.imshow(mnist.data[1250 * i].reshape(28, 28), cmap='gray_r') 







































































5-107: MNIST 手写 数字 


这 样 就 能 对 数据 集中 的 各 种 手写 方式 有 个 直观 印象 了 。 

下 面 来 计算 这 些 数据 的 流 形 学 习 投 影 ， 如 图 5-108 所 示 。 考 虑 到 计算 速度 的 影响 ， 我 们 仅 
使 用 数据 集 的 1/30 进行 学 习 ， 大 概 包 括 2000 个 数字 样本 点 (由 于 流 形 学 习 的 计算 扩展 性 
比较 差 ， 因 此 一 开始 用 几 千 个 示例 数据 也 许 是 不 错 的 选择 ， 这 样 可 以 在 完整 计算 之 前 进行 
相对 快速 的 探索 ) : 
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In[24] : 

# 由 于 计算 完整 的 数据 集 需 要 花 很 长 时 间 ， 因 此 仅 使 用 数据 集 的 1/30 
data = mnist.data[::30] 

target = mnist.target[::30] 











model = Isomap(n_components=2) 

proj = model.fit_ transform(data) 

plt.scatter(proj[:, 0], proj[:, 1], c=target, cmap=plt.cm.get_cmap('jet', 10)) 
plt.colorbar(ticks=range(10)) 

plt.clim(-0.5, 9.5); 
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图 5-108: MNIST 手写 数字 数据 的 lsomap 谋 入 








该 散 点 图 结果 展示 了 数据 点 间 的 一 些 关 系 ， 但 是 点 的 分 布 有 一 点 拥挤 。 我 们 可 以 一 次 只 查 
看 一 个 数字 ， 来 获得 更 清楚 的 结果 (如 图 5-109 所 示 ) : 


In[25]: from sklearn.manifold import Isomap 


# 选择 1/4 的 数字 "1" 来 投影 


data = mnist.data[mnist.target == 1][::4] 

















fig, ax = plt.subplots(figsize=(10, 10)) 

model = Isomap(n_neighbors=5, Nn_components=2, eigen_solver='dense') 

plot_components(data, model, images=data.reshape((-1, 28, 28)), 
ax=ax, thumb_frac=0.05, cmap='gray_r') 


结果 表明 ， 数 据 集中 数字 “1” 的 形式 是 多 种 多 样 的 。 这 个 数据 在 投影 空间 中 分 布 在 一 个 
较 宽 的 曲面 上 ， 都 像 是 沿 着 数字 的 方向 。 当 你 沿 着 图 像 向 上 看 ， 将 发 现 一 些 带 着 “帽子 ” 
且 / 或 带 有 “底座 ”的 数字 “1”， 虽 然 这 些 形式 在 整个 数据 集中 非常 少 。 可 见 ， 流 形 投影 
可 以 让 我 们 发 现 数据 中 的 异常 点 ( 即 邻 近 的 数字 片段 被 偷偷 放 入 抽取 的 图 像 中 )。 
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图 5-109: 数据 中 数字 “1” 的 lsomap 谋 入 
虽然 这 种 方法 可 能 对 数字 分 类 任务 六 
据 ， 并 且 能 提供 一 些 进一步 分 析 数 据 的 线索 。 例 如 ， 
数据 进行 预 处 理 。 


5.11 专题 : k-means 聚 类 





在 前 面 几 节 中 ， 我 们 探索 了 一 种 无 监督 机 器 学 习 模 型 : 
器 学 习 模 型 : 聚 类 算法 。 聚 类 算法 直接 从 数据 的 内 在 








离散 标签 类 型 。 


虽然 在 Scikit-Learn 或 其 他 地 方 有 许多 聚 类 算法 ， 但 
还 得 算是 k-means 聚 类 算法 了 ， 在 skLearn.cLuster . 
程序 包 : 


In[1]: %matplotlib inline 


import matplotlib.pyplot as plt 


F 没 有 帮助 ， 但 是 


EA 


开间 




















它 确 实 可 以 帮助 我 们 更 好 地 理解 数 
在 构建 分 类 管道 模型 之 前 ， 该 如 何 对 





降 维 。 下 面 将 介绍 另 一 种 无 监督 机 
性 质 中 学 习 最 优 的 划分 结果 或 者 确定 





单 、 最 容易 理解 的 聚 类 算法 可 能 
KMeans 中 实现 。 首 先 还 是 先 输入 标准 














import seaborn as sns; sns.set() ## 绘 
import numpy as np 





风格 
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5.11.1 k-means 简介 


k-means 算法 在 不 带 标签 的 多 维 数据 集中 寻找 确定 数量 的 侯 。 最 优 的 聚 类 结果 需要 符合 以 
下 两 个 假设 。 

2 ” (cluster center) 是 属于 该 复 的 所 有 数据 点 坐标 的 算术 平均 值 。 

5 复 的 每 个 点 到 该 禾 中 心 点 的 距离 ， 比 到 其 他 徐 中 心 点 的 距离 短 。 


这 两 个 假设 是 k-means 模型 的 基础 ， 后 面 会 具体 介绍 如 何 用 该 算法 解决 问题 。 先 通过 一 个 
简单 的 数据 集 ， 看 看 k-means 算法 的 处 理 结果 


首先 ， 生 成 一 个 二 维 数据 集 ， 该 数据 集 包 含 4 个 明显 的 徐 。 由 于 要 演示 无 监督 算法 ， 因 此 
去 除 可 视 化 图 中 的 标签 (如 图 5-110 所 示 ) : 


In[2]: from sklearn.datasets.samples_generator import make_blobs 
X, y_true = make_blobs(n_samples=300, centers=4, 
cluster_std=0.60, random_ state=0) 
plt.scatter(X[:, 0], X[:, 1], s=50); 
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图 5-110: 数据 聚 类 





通过 肉眼 观察 ， 可 以 很 轻松 地 挑选 出 4 个 徐 。 而 k-means 算法 可 以 自动 完成 4 个 复 的 识别 
工作 ， 并 且 在 Scikit-Learn 中 使 用 通用 的 评估 器 API: 
In[3]: from sklearn.cluster import KMeans 
kmeans = KMeans(n_clusters=4) 


kmeans .fit(X) 
y_kmeans = kmeans.predict(X) 


下 面 用 带 彩色 标签 的 数据 来 展示 聚 类 结果 。 同 时 ， 画 出 徐 中 心 点 ， 这 些 徐 中 心 点 是 由 
k-means 评估 器 确定 的 〈 如 图 5-111 所 示 ) : 


In[4]: plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis') 





























centers = kmeans.cluster_centers_ 
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5); 
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5-111: k-means 簇 中 心 点 和 用 不 同 颜色 区 分 的 禾 


告诉 你 个 好 消息 ，k-means 算法 可 以 至少 在 这 个 简单 的 例子 中 ) 将 点 指定 到 某 一 个 类 ， 
就 类 似 于 通过 肉眼 观察 然后 将 点 指定 到 某 个 类 。 但 你 可 能 会 好 奇 ， 这 些 算法 究竟 是 如 何 快 
速 找到 这 些 徐 的 ， 毕 竟 可 能 存在 的 禾 分 配 组 合 方案 会 随 着 数据 点 的 增长 而 呈现 指数 级 增 
长 趋势 ， 如 果 要 做 这 样 的 穷 举 搜索 需要 消耗 大 量 时 间 。 好 在 有 算法 可 以 避免 这 种 穷 举 搜 
索 一 一 k-means 方法 使 用 了 一 种 容易 理解 、 便 于 重复 的 期 望 最 大 化 算法 取代 了 穷 举 搜索 。 


5.11.2 fk-means 算 法 : 期 望 最 大 化 


期 望 最 大 化 (expectation-maximization，E-M) 是 一 种 非常 强大 的 算法 ， 应 用 于 数据 科学 
的 很 多 场景 中 。k-means 是 该 算法 的 一 个 非常 简单 并 且 易 于 理解 的 应 用 ， 下 面 将 简单 介绍 
E-M 算法 。 简 单 来 说 ， 期 望 最 大 化 方法 包含 以 下 步 又。 


(1) 猜测 一 些 徐 中 心 点 。 



























































(2) 重复 直至 收敛 。 
a. 期 望 步骤 (E-step) : 将 点 分 配 至 离 其 最 近 的 禾 中 心 点 。 
b. 最 大 化 步骤 (M-step) : 将 复 中 心 点 设置 为 所 有 点 坐标 的 平均 值 。 




















期 望 步骤 (E-step 或 Expectation step) 不 断 更 新 每 个 点 是 属于 哪 一 个 得 的 期 望 值 ， 最 大 
化 步骤 (M-step 或 Maximization step) 计算 关于 徐 中 心 点 的 拟 合 函数 值 最 大 化 对 应 坐标 
(argmax 国 数 ) 在 本 例 中 ， 通 过 简单 地 求 每 个 自 中 所 有 数据 点 坐标 的 平均 值得 到 了 徐 
中 心 点 坐标 。 

关于 这 个 算法 的 资料 非常 多 ， 但 是 这 些 资 料 都 可 以 总 结 为 : 在 典型 环境 下 ， 每 一 次 重复 
E-step 和 M-step 都 将 会 得 到 更 好 的 聚 类 效果 。 


将 这 个 算法 在 图 5-112 中 可 视 化 。 
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图 5-112; k-means 的 E-M 算法 的 可 视 化 


如 图 所 示 ， 数 据 从 初始 化 状态 开始 ， 经 过 三 次 迭代 后 收敛 。 下 图 显示 的 是 聚 类 的 交互 式 可 视 
化 版 本 ， 详 情 请 参见 GitHub 在 线 附 录 (https://github.com/jakevdp/PythonDataScienceHandbook) 
中 的 代码 。 

k-means 算法 非常 简单 ， 只 要 用 几 行 代码 就 可 以 实现 它 。 以 下 是 一 个 非常 基础 的 大 means 
算法 实现 (如 图 5-113 所 示 ) : 


In[5]: from sklearn.metrics import pairwise_distances_argmin 














def find_cLusters(X，n_cLusters，rseed=2) : 
# 工 .随机 选择 复 中 心 点 
rng = np.random.RandomState(rseed) 
i = rng.permutation(X.shape[0])[:n_clusters] 
centers = X[i] 





while True: 
# 2a. 基 于 最 近 的 中 心 指定 标签 
labels = pairwise distances_argmin(X, centers) 





# 2b. 根 据点 的 平均 值 找到 新 的 中 心 
new_centers = np.array([X[LabeLs == i].mean(0) 
for i in range(n_clusters)]) 





# 2c. 确 认 收 敛 

if np.all(centers == New_centers): 
break 

centers = New_centers 


return centers, labels 
centers, labels = find_clusters(X, 4) 


plt.scatter(X[:, 0], Xx[:, 1], c=labels, 
s=50, cmap='viridis'); 
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5-113: 用 means 进行 数据 聚 类 


虽然 大 部 分 可 用 的 聚 类 算法 底层 其 实 都 是 对 上 述 示 例 的 进一步 扩展 ,但 上 述 函 数 解释 了 期 
望 最 大 化 方法 的 核心 内 容 。 
使 用 期 望 最 大 化 算法 时 的 注意 事项 
在 使 用 期 望 最 大 化 算法 时 ， 需 要 注意 几 个 问题 。 
可 能 不 会 达到 全 局 最 优 结果 
首先 ， 虽 然 E-M 算法 可 以 在 每 一 步 中 改进 结果 ， 但 是 它 并 不 保证 可 以 获得 全 局 最 优 的 
解决 方案 。 例 如 ， 如 果 在 上 述 简单 的 步骤 中 使 用 一 个 随机 种 子 (random seed) ， 那 么 某 
些 初始 值 可 能 会 导致 很 糟糕 的 聚 类 结果 (如 图 5-114 所 示 ) : 
In[6]: centers, labels = find_clusters(X, 4, rseed=0) 
plt.scatter(X[:, 0], Xx[:, 1], c=labels, 





























5-114: k-means 算法 的 一 个 糟糕 的 收敛 结果 
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虽然 E-M 算法 最 终 收敛 了 ,但 是 并 没有 收 全 至 全 局 最 优 配置 。 因 此 ,该 算法 通常 会 用 
不 同 的 初始 值 尝 试 很 多 人 遍 ， 在 Scikit-Learn 中 通过 n_init 参数 (默认 值 是 10) 设置 执 
行 次 数 。 

禾 数 量 必 须 事 先 定 好 
k-means 还 有 一 个 显著 的 问题 : 你 必须 告诉 该 算法 复数 量 ， 因 为 它 无 法 从 数据 中 自动 学 
习 到 簇 的 数量 。 如 果 我 们 告诉 算法 识别 出 6 个 徐 ， 它 将 很 快乐 地 执行 ， 并 找 出 最 佳 的 6 
个 禾 (如 图 5-115 所 示 ) : 


In[7]: labels = KMeans(6，random_state=0).fit_predict(X) 
plt.scatter(X[:, 0], X[:, 1], c=labels, 
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图 5-115: 复数 量 取 值 不 合适 的 结果 





结果 是 否 有 意义 是 一 个 很 难 给 出 明确 回答 的 问题 。 有 一 个 非常 直观 的 方法 ， 但 这 里 不 
会 进一步 讨论 ， 该 方法 叫 作 轮廓 分 析 (http://scikit-learn.org/stable/auto_examples/cluster/ 
plot_kmeans_silhouette_analysis.html )s 


不 过 ， 你 也 可 以 使 用 一 些 复杂 的 聚 类 算法 ， 有 些 算法 对 每 个 徐 的 聚 类 效果 有 更 好 的 度 
量 方式 (例如 高 斯 混合 模型 ，Gaussian mixture models， 详 情 请 参见 5.12 节 )， 还 有 一 些 
算法 可 以 选择 一 个 合适 的 得 数量 (例如 DBSCAN、 均 值 漂 移 或 者 近邻 传播 ， 这 些 都 是 
sklearn.cluster 的 子 模块 ) 。 

k-means 算法 只 能 确定 线性 聚 类 边界 
k-means 的 基本 模型 假设 (与 其 他 徐 的 点 相 比 ， 数 据点 更 接近 自己 的 复 中 心 点 ) 表明 ， 
当 徐 中 心 点 呈现 非 线 性 的 复杂 形状 时 ， 该 算法 通常 不 起 作用 。 
k-means 聚 类 的 边界 总 是 线性 的 ， 这 就 意味 着 当 边 界 很 复杂 时 ， 算 法 会 失效 。 用 下 面 的 
数据 来 演示 k-means 算法 得 到 的 复 标 签 ， 如 图 5-116 所 示 : 


In[8]: from sklearn.datasets import make_moons 
X, y = make_moons(200, noise=.05, random_state=0) 
































机 器 学 习 | 407 


In[9]: labels = KMeans(2，random_state=0).fit_predict(X) 
plt.scatter(X[:, 0], X[:, 1], c=labels, 
s=50, cmap='Vviridis'); 





05 


00 


-05 














5-116: 将 k-means 算法 用 于 非 线性 边界 的 失败 案例 


这 个 情形 让 人 想起 5.7 节 介 绍 的 内 容 ， 当 时 我 们 通过 一 个 核 变 换 将 数据 投影 到 更 高 维 的 
空间 ， 投 影 后 的 数据 使 线性 分 离 成 为 可 能 。 或 许可 以 使 用 同样 的 技巧 解决 k-means 算法 
无 法 处 理 非 线性 边界 的 问题 。 


这 种 核 上 means 算法 在 Scikit-Learn 的 SpectraLCLustering 评估 器 中 实现 ， 它 使 用 最 近 
邻 图 (the graph of nearest neighbors) 来 计算 数据 的 高 维 表示 ， 然 后 用 k-means 算法 分 配 
标签 (如 图 5-117 所 示 ) : 
In[10]: from sklearn.cluster import SpectraLCLustering 
model = SpectraLCLustering(n_CLusters=2， 
affinity='nearest_neighbors', 
assign_labels='kmeans') 
labels = model.fit predict(X) 
plt.scatter(X[:, 0], X[:, 1], c=labels, 
s=50, cmap="'viridis'); 


可 以 看 到 ， 通 过 核 变换 方法 ， 核 k-means 就 能 够 找到 复 之 间 复 杂 的 非 线性 边界 了 。 

当 数 据 量 较 大 时 ，k-means 会 很 慢 
由 于 k-means 的 每 次 迭代 都 必须 获取 数据 集 所 有 的 点 ， 因 此 随 着 数据 量 的 增加 ， 算 法 
会 变 得 缓慢 。 你 可 能 会 想到 将 “每 次 迭代 都 必须 使 用 所 有 数据 点 ”这 个 条 件 放宽 ， 例 
如 每 一 步 仅 使 用 数据 集 的 一 个 子 集 来 更 新 徐 中 心 点 。 这 恰恰 就 是 批 处 理 (batch-based) 
k-means 算法 的 核心 思想 ， 该 算法 在 sklearn.cluster.MiniBatchKMeans 中 实现 。 该 算法 
的 接口 和 标准 的 KMeans 接口 相同 ， 后 面 将 用 一 个 示例 来 演示 它 的 用 法 。 
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5-117: SpectraLCLustering 算法 计算 的 非 线 性 边界 


5.11.3 ”案例 


了 解 了 算法 的 限制 条 件 之 后 ， 就 可 以 将 means 的 优势 发 挥 到 合适 的 场景 中 了 。 下 面 来 演 
示 一 些 示例 。 


1. 案例 1: 用 k-means 算法 处 理 手写 数字 
首先 ， 将 k-means 算法 用 于 5.8 节 和 5.9 市 演示 的 手写 数字 数据 。 这 次 试 试 能 不 能 不 使 用 原 
始 的 标签 信息 ， 就 用 k-means 算法 识别 出 类 似 的 数字 。 这 个 过 程 就 好 像 是 在 事先 没有 标签 
信息 的 情况 下 ， 探 索 新 数据 集 的 含义 。 
首先 导入 手写 数字 ， 再 使 用 KMeans 聚 类 。 手 写 数字 数据 集 包 含 1797 个 示例 ， 每 个 样本 有 
64 个 特征 ， 其 实 就 是 8 x 8 图 像 中 的 每 个 像素 : 

In[11]: from sklearn.datasets import load digits 


digits = Load_digits() 
digits.data.shape 









































Out[11]: (1797, 64) 
聚 类 过 程 和 之 前 的 一 样 : 


In[12]: kmeans = KMeans(n_clusters=10, random_state=0) 
clusters = kmeans.fit predict(digits.data) 
kmeans.cluster_centers_.shape 


Out[12]: (10, 64) 


结果 是 在 64 维 中 有 10 个 类 。 需 要 注意 的 是 ， 这 些 复 中 心 点 本 身 就 是 64 维 像素 的 
点 ， 可 以 将 这 些 点 看 成 是 该 徐 中 “具有 代表 性 ”(typical) 的 数字 。 这 些 复 中 心 点 如 图 
5-118 所 示 : 
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In[13]: fig, ax = plt.subplots(2, 5, figsize=(8, 3)) 
centers = kmeans.cluster_centers_.reshape(10, 8, 8) 
for axi, center in zip(ax.flat, centers): 
axi.set(xticks=[], yticks=[]) 
axi.imshow(center, interpolation='nearest', cmap=plt.cm.binary) 
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5-118: 用 k-means 算法 得 到 的 簇 中 心 点 


我 们 会 发 现 ， 即 使 没有 标签 ，KMeans 算法 也 可 以 找到 可 辨识 的 数字 中 心 ， 但 是 1 和 8 


例外 。 


由 于 means 并 不 知道 复 的 真实 标签 ， 因 此 0~9 标签 可 能 关 
每 个 学 习 到 的 徐 标 签 和 真实 标签 进行 匹配 ， 从 而 解决 这 个 问题 : 


In[14]: from scipy.stats import mode 











labels = np.zeros_like(clusters) 
for i in range(10): 
mask = (clusters == i) 
LabeLs[mask] = mode(digits.target[mask])[0] 


现在 就 可 以 检查 无 监督 聚 类 算法 在 查找 相似 数字 时 的 准确 性 了 : 


In[15]: from sklearn.metrics import accuracy_score 
accuracy_score(digits.target, labels) 





Out[15]: 0.79354479688369506 














仅 通过 一 个 简单 的 上 means 算法 ， 就 可 以 获得 手写 数字 数据 集 80% 的 分 组 准确 率 ! 下 本 


看 看 混淆 矩阵 (如 图 5-119 所 示 ) : 


In[16]: from sklearn.metrics import confusion matrix 
mat = confusion matrix(digits.target, labels) 
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False, 
xticklabels=digits.target_names, 
yticklabels=digits.target_names) 
plt.xlabel('true label') 
plt.ylabel('predicted label'); 





不 是 顺序 排列 的 。 我 们 可 以 将 


再 
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predicted label 





true label 








5-119: k-means 分 类 器 的 混淆 和 矩阵 
正如 我 们 之 前 看 到 的 徐 中 心 点 图 ， 混 请 的 地 方 主 要 是 在 数字 8 和 1。 但 仍然 可 以 看 出 ， 通 
过 k-means 可 以 构建 一 个 数字 分 类 器 ， 该 数字 分 类 器 不 需要 任何 已 知 的 标签 。 


其 实 还 可 以 更 进一步 ， 使 用 tt- 分 布 邻 域 附 入 算法 (详情 请 参见 5.10 市 ) 在 执行 -means 之 
前 对 数据 进行 预 处 理 。t-SNE 是 一 个 非 线性 戏 入 算法 ， 特 别 擅长 保留 禾 中 的 数据 点 。 下 面 
来 看 看 如 何 实现 : 


In[17]: from sklearn.manifold import TSNE 











# 投影 数据 : 这 一 步 将 耽误 儿 秒 钟 
tsne = TSNE(n_components=2, init='pca', random_state=0) 
digits proj = tsne.fit transform(digits.data) 


# 计算 类 
kmeans = KMeans(n_clusters=10, random_state=0) 
clusters = kmeans.fit_predict(digits_proj) 


# 排列 标签 
labels = np.zeros_like(clusters) 
for i in range(10): 
mask = (clusters == i) 
LabeLs[mask] = mode(digits.target[mask])[0] 


# 计算 准确 度 


accuracy_score(digits.target, labels) 





Out[17]: 0.93356149137451305 


同样 在 没有 标签 的 情况 下 ， 它 可 以 达到 94% 的 分 类 准确 率 ， 这 就 是 合理 使 用 无 监督 学 习 的 
力量 。 无 监督 学 习 可 以 从 数据 集中 抽取 难以 用 手眼 直接 提取 的 信息 。 
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2. 案例 2: 将 上 means 用 于 色彩 压缩 
聚 类 算法 的 另 一 个 有 趣 应 用 是 图 像 色 彩 压缩 。 设 想 你 有 一 幅 包含 几 百 万 种 颜色 的 图 像 ， 但 
其 实 大 多 数 图 像 中 的 很 大 一 部 分 色彩 通常 是 不 会 被 眼睛 注意 到 的 ， 而 且 图 像 中 的 很 多 像素 
都 拥有 类 似 或 者 相同 的 颜色 。 
如 图 5-120 所 示 ， 该 图 像 来 源 于 Scikit-Learn 的 datasets 模块 (在 本 例 中 ， 你 将 需要 安装 
Python 的 ptLLow 图 像 程序 包 ) : 
In[18]: # 需要 安装 pitLLow 图 像 程序 包 
from sklearn.datasets import load_sample_image 
china = load_sample_image("china.jpg") 


ax = plt.axes(xticks=[], yticks=[]) 
ax.imshow(china); 





















































5-120: 输入 图 像 


该 图 像 存 储 在 一 个 三 维 数组 (height，width，RGB) 中 ， 以 0~255 的 整数 表示 红 / 蓝 / 
绿 信息 : 


In[19]: china.shape 





Out[19]: (427, 640, 3) 
可 以 将 这 组 像素 转换 成 三 维 颜 色 空 间 中 的 一 群 数据 点 。 先 将 数据 变形 为 [n_samples x 
n_features]， 然 后 缩放 颜色 至 其 取 值 为 0~1: 


In[20]: data = china / 255.0 # 转换 成 60~1 区 间 值 
data = data.reshape(427 * 640, 3) 
data.shape 





Out[20]: (273280，3) 


还 可 以 在 颜色 空间 中 对 这 些 像素 进行 可 视 化 。 为 了 演示 方便 ， 这 里 只 使 用 包含 前 10 000 个 
像素 的 子 集 (如 图 5-121 所 示 ) : 








In[21]: def plot_pixels(data, title, colors=None, N=10000): 
if colors is None: 
colors = data 


# 随机 选择 一 个 子 集 

rng = np.random.RandomState(0) 

i = rng.permutation(data.shape[0])[:N] 
colors = colors[il] 

R, G, B = data[i].T 


fig, ax = plt.subplots(1, 2, figsize=(16, 6)) 
ax[0].scatter(R, G, color=colors, marker='.') 


ax[0].set(xlabel='Red', ylabel='Green', xlim=(0, 1), ylim=(0, 1)) 


ax[1].scatter(R, B, color=colors, marker="'.') 
ax[1].set(xlabel='Red', ylabel='Blue', xlim=(0, 1), ylim=(0, 1)) 


fig.suptitle(title, size=20); 


In[22]: plot_pixels(data, title='Input color space: 16 million possible colors') 





Input color space: 16 million possible colors 


10 10 


Green 











5-121: 在 RGB 颜色 空间 中 的 像素 分 布 


现在 对 像素 空间 (特征 矩阵 ) 使 用 k-means 聚 类 ， 将 1600 万 种 颜色 (255 x 255 x 255 = 
16 581 375) 缩减 到 16 种 颜色 。 因 为 我 们 处 理 的 是 一 个 非常 大 的 数据 集 ， 所 以 将 使 用 
MiniBatchKMeans 算法 对 数据 集 的 子 集 进 行 计 算 。 这 种 算法 比 标准 的 上 means 算法 速度 更 快 
(如 图 5-122 所 示 ) : 
In[23]: from sklearn.cluster import MiniBatchKMeans 
kmeans = MiniBatchKMeans(16) 


kmeans .fit(data) 
new_coLors = kmeans.cluster_centers_[kmeans.predict(data)] 


plot_pixels(data, colors=new_colors, 
title="Reduced color space: 16 colors") 





机 器 学 习 | 413 








08 


Green 





Reduced color space: 16 colors 
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5-122: 在 RGB 颜色 空间 中 16 个 类 


用 计算 的 结果 对 原始 像素 重新 着 色 ， 即 每 个 像素 被 指定 为 距离 其 最 近 的 复 中 心 点 的 颜色 。 





用 新 的 颜色 在 图 像 空间 (427 x 640) ， 而 不 是 像素 空间 (273 280 x 3) 
效果 (如 图 5-123 所 示 ) : 


In[24] : 
china_recolored = new_coLors.reshape(china.shape) 


























fig, ax = pLt.subpLots(1，2，figsize=(16，6)， 


subplot_ kw=dict(xticks=[], yticks=[])) 


fig.subplots_adjust(wspace=0.05) 
ax[0].imshow(china) 
ax[0].set _ title('Original Image', size=16) 
ax[1].imshow(china_recolored) 

ax[1].set title('16-color Image', size=16); 


里 重新 画图 ， 展 示 





























原始 图 像 16 个 颜色 的 








图 像 











图 5-123: 对 比 拥有 全 部 颜色 的 图 像 ( 左 ) 和 拥有 16 个 颜色 的 图 像 ( 右 ) 


虽然 右 








图 丢失 了 某 些 细节 ， 但 是 图 像 总 体 上 还 是 非常 容易 辨识 的 。 右 图 


实现 了 将 近 一 百 万 


的 压缩 比 ! 这 就 是 k-means 的 一 个 有 趣 的 应 用 ， 当 然 还 有 很 多 更 好 的 压缩 图 像 的 算法 ， 但 
是 这 个 示例 足以 显示 无 监督 算法 (如 k-means) 解决 问题 的 力量 。 
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5.12 专题 : 高 斯 混合 模型 


前 一 节 介 绍 的 k-means 聚 类 模型 非 
来 了 挑 成 。 特 别 是 如 


ay A 


常 简单 并 且 易 于 理解 ， 但 是 它 的 简 自 
E 实 际 应 用 中 ，k-means 的 非 概率 性 和 它 仅 根 据 到 签 中 心 点 的 距离 来 指 








性 也 为 实际 应 用 带 


派 复 的 特点 将 导致 性 能 低下 。 这 一 节 将 介绍 高 斯 混合 模型 ， 该 模型 可 以 被 看 作 是 k-means 
思想 的 一 个 扩展 ， 但 它 也 是 一 种 非常 强大 的 聚 类 评估 工具 。 还 是 从 标准 导 和 开始: 
In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 


import seaborn as sns; sns.set() 
import numpy as np 


5.12.1 





下 本 











高 斯 混合 模型 “GMM) 为 什么 会 出 现 : k-means 
算法 的 缺陷 


i 来 介绍 一 些 k-means 算法 的 不 足 之 处 ， 并 思考 如 何 改 进 我 们 的 聚 类 模型 。 就 像 前 一 市 


所 看 到 的 ， 只 要 给 定 简单 且 分 离 性 非常 好 的 数据 ，k-means 就 可 以 找到 合适 的 聚 类 结果 。 





例 妇 


1H， 只 要 有 简单 的 数据 徐 ，k-means 算法 就 可 以 快速 给 这 些 徐 作 标记 ， 标 记 结 果 和 通过 
肉眼 观察 到 的 徐 的 结果 十 分 接近 (如 图 5-124 所 示 ) : 


In[2]: # 生成 数据 
from sklearn.datasets.samples_generator import make_blobs 
X, y_true = make_blobs(n_samples=400, centers=4, 
cluster_std=0.60, random_ state=0) 


In[3]: 


X = X[:，::-1] # 交换 列 是 为 了 方便 画 医 


# 














k-means 标签 画 


























数据 

















from sklearn.cluster import KMeans 
kmeans = KMeans(4, random_state=0) 
labels = kmeans.fit(X).predict(X) 

plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap="'viridis'); 

















5-124: 简单 数据 的 k-means 标签 
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通过 直接 观察 可 以 发 现 ， 某 些 点 的 归属 复 比 其 他 点 的 归属 复 更 加 明确 。 例 如 ， 中 间 的 两 个 
复 似 和平 有 一 小 块 区 域 重 合 ， 因 此 我 们 对 重合 部 分 的 点 将 被 分 配 到 哪个 禾 不 是 很 有 信心 。 不 
幸 的 是 ，k-means 模型 本 身 也 没有 度量 簇 的 分 配 概率 或 不 确定 性 的 方法 (虽然 可 以 用 数据 
重 抽样 方法 bootstrap 来 估计 不 确定 性 )。 因 此 ， 我 们 必须 找到 一 个 更 通用 的 模型 。 

理解 大 means 模型 的 一 种 方法 是 ， 它 在 每 个 徐 的 中 心 放置 了 一 个 圆圈 (在 更 高 维 空间 中 是 
一 个 超 空间 ) ， 圆 圈 半 径 根据 最 远 的 点 与 簇 中 心 点 的 距离 算出 。 这 个 半径 作为 训练 集 分 配 
复 的 硬 切 断 (hard cutoff) ， 即 在 这 个 圆圈 之 外 的 任何 点 都 不 是 该 徐 的 成 员 。 可 以 用 以 下 图 
数 将 这 个 聚 类 模型 可 视 化 〈 如 图 5-125 所 示 ) : 

In[4]: 


from sklearn.cluster import KMeans 
from scipy.spatial.distance import cdist 



































def plot kmeans(kmeans, X, Nn_clusters=4, rseed=0, ax=None): 
labels = kmeans.fit predict(X) 


# 画 出 输入 数据 

ax = ax or plt.gca() 

ax.axis('equal') 

ax.scatter(X[:, 0], Xx[:, 1], c=labels, s=40, cmap='viridis', zorder=2) 


# 画 出 k-means 模型 的 表示 
centers = kmeans.cluster_centers_ 
radii = [cdist(X[labels == i], [center]).max() 
for i, center in enumerate(centers)] 
for c, r in zip(centers, radii): 
ax.add_patch(plt.Circle(c, r, fc='#CCCCCC', lw=3, alpha=0.5, zorder=1)) 


In[5]: kmeans = KMeans(n_clusters=4, random_state=0) 
plot_kmeans(kmeans, X) 




















k-means 有 一 个 重要 特征 ， 它 要 求 这 些 复 的 模型 必须 是 圆 形 : k-means 算法 没有 内 置 的 方法 
来 实现 覃 圆 形 的 复 。 因 此 ， 如 果 对 同样 的 数据 进行 一 些 转换 ， 徐 的 分 配 就 会 变 得 混乱 (如 
图 5-126 所 示 ) : 


In[6]: rng = np.random.RandomState(13) 
X_stretched = np.dot(X，rng.randn(2，2)) 











kmeans = KMeans(n_cLusters=4，random_state=0) 
plot_kmeans(kmeans, X_stretched) 

















5-126: k-means 算法 对 非 圆 形 聚 类 效果 很 差 


通过 肉眼 观察 ， 可 以 发 现 这 些 变形 的 徐 并 不 是 圆 形 的 ， 因 此 圆 形 的 簇 拟 合 效 果 非 常 精 糕 。 
总 之 ，k-means 对 这 个 问题 有 点 无 能 为 力 ， 只 能 强行 将 数据 拟 合 至 4 个 圆 形 的 给， 但 却 导 
致 多 个 圆 形 的 徐 混 在 一 起 、 相 互 重合， 右 下 部 分 尤其 明显 。 有 人 可 能 会 想 用 PCA (详情 请 
参见 5.9 市 ) 先 预 处 理 数据 ， 从 而 解决 这 个 特殊 的 问题 。 但 实际 上 ，PCA 也 不 能 保证 这 样 
的 全 局 操作 不 会 导致 单个 数据 被 圆 形 化 。 

k-means 的 这 两 个 缺点 一 一 类 的 形状 缺少 灵活 性 、 缺 少 簇 分 配 的 概率 一 一 使 得 它 对 许多 数 
据 集 (特别 是 低 维 数据 集 ) 的 拟 合 效果 不 尽 如 人 意 。 

你 可 能 想 通 过 对 k-means 模型 进行 一 般 化 处 理 来 弥补 这 些 不 足 ， 例 如 可 以 通过 比较 每 个 点 
与 所 有 徐 中 心 点 的 距离 来 度量 复 分 配 的 不 确定 性 ， 而 不 仅仅 是 关注 最 近 的 做。 你 也 可 能 想 
通过 将 签 的 边界 由 圆 形 放宽 至 椭圆 形 ， 从 而 得 到 非 圆 形 的 复 。 实 际 上 ， 这 正 是 另 一 种 的 聚 
类 模型 一 一 高 斯 混合 模型 一 一 的 两 个 基本 组 成 部 分 。 


5.12.2 一 般 化 E-M: 高 斯 混合 模型 
一 个 高 斯 混合 模型 (Gaussian mixture model，GMM) 试图 找到 多 维 高 斯 概率 分 布 的 混合 


体 ， 从 而 获得 任意 数据 集 最 好 的 模型 。 在 最 简单 的 场景 中 ，GMM 可 以 用 与 means 相同 
的 方式 寻找 类 (如 图 5-127 所 示 ) : 
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In[7]: from sklearn.mixture import GMM 
gmm = GMM(Nn_components=4).fit(X) 
labels = gmm.predict(X) 
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis'); 
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图 5-127: 高 斯 混合 模型 得 到 的 数据 标签 


但 由 于 GMM 有 一 个 隐 仿 的 概率 模型 ， 因 此 它 也 可 能 找到 簇 分 配 的 概率 结果 一 一 在 Scikit- 
Learn 中 用 predict_proba 方法 实现 。 这 个 方法 返回 一 个 大 小 为 [n_sampLes，n_cLusters] 
的 矩阵 ， 和 矩阵 会 给 出 任意 点 属于 茶 个 徐 的 概率 : 


In[8]: probs = gmm.predict_proba(X) 
print(probs[:5].round(3)) 
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我 们 可 以 将 这 个 不 确定 性 可 视 化 ， 用 每 个 点 的 大 小 体现 预测 的 不 确定 性 ， 使 其 成 正比 。 由 
5-128 可 知 ， 在 簇 边 界 上 的 点 反映 了 簇 分 配 的 不 确定 性 : 


In[9]: size = 50 * probs.max(1) ** 2 # 平方 强调 差异 





高 斯 混合 模型 本 质 上 和 k-means 模型 非常 类 似 ， 它 们 都 使 用 了 期 望 最 大 化 方法 ， 有 具体 实现 
如 下 。 
(1) 选择 初始 徐 的 中 心 位 置 和 形状 。 
(2) 重复 直至 收敛 。 
a. 期 望 步骤 (E-step) : 为 每 个 点 找到 对 应 每 个 徐 的 概率 作为 权重 。 
b. 最 大 化 步骤 (M-step) : 更 新 每 个 徐 的 位 置 ， 将 其 标准 化 ， 并 且 基 于 所 有 数据 点 的 权 
重 来 确定 形状 。 











A 
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图 5-128: GMM 概率 标签 : 用 点 的 大 小 反映 概率 


最 终结 


| 


果 表 明 ， 每 个 得 的 结果 并 不 与 硬 边缘 的 空间 (hard-edged sphere) 有 关 ， 而 是 通过 高 


斯 平 请 模型 实现 。 正 如 在 k-means 中 的 期 望 最 大 化 方法 ， 这 个 算法 有 时 并 不 是 全 局 最 优 解 ， 


因 ] 











下 








比 在 实际 应 用 需要 使 用 多 个 随机 初始 解 。 
看 创建 一 个 可 视 化 GMM 秘 位 置 和 形状 的 函数 ， 该 函数 用 gmn 的 输出 结果 画 出 椭圆 : 








In[10]: 
from matplotlib.patches import Ellipse 


def 


def 


draw_ellipse(position, covariance, ax=None, **kwargs): 
""" 用 给 定 的 位 置 和 协 方差 画 一 个 椭 加 """ 


ax = ax or plt.gca() 

















# 将 协 方差 转换 成 主轴 
if covariance.shape == (2, 2): 
U, s, Vt = np.linalg.svd(covariance) 
angle = np.degrees(np.arctan2(U[1, 0], U[0, 0])) 
width, height = 2 * np.sqrt(s) 
else: 
angle = 0 
width, height = 2 * np.sqrt(covariance) 





# 画 出 椭圆 
for nsig in range(1, 4): 
ax.add_patch(Ellipse(position, nsig * width, nsig * height, 
angle, **kwargs)) 





plot_gmm(gmm, X, label=True, ax=None): 
ax = ax or plt.gca() 
labels = gmm.fit(X).predict(X) 
if label: 
ax.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis', zorder=2) 
else: 
ax.scatter(X[:, 0], X[:, 1], s=40, zorder=2) 
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ax.axis('equal') 


w_factor = 0.2 / gmm.weights_.max() 
for pos, covar, Ww in zip(gmm.means_, gmm.covars_, gmm.weights_ ): 
draw_ellipse(pos, covar, alpha=w * w_factor) 


经 过 上 述 处 理 之 后 ， 再 给 GMM 四 个 成 分 处 理 初始 数据 ， 看 看 会 得 到 什么 结果 (如 图 
5-129 所 示 ) : 


In[11]: gmm = GMM(n_components=4, random_state=42) 
plot_gmm(gmm, X) 
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图 5-129: 在 圆 形 聚 类 中 GMM 的 四 个 成 分 
同 理 ， 也 可 以 用 GMM 方法 来 拟 合 扩展 过 的 数据 集 。 高 斯 模型 允许 使 用 全 协 方差 (full 
covariance) ， 即 使 是 于 非常 扁平 的 椭圆 形 的 复 ， 该 模型 也 可 以 处 理 (如 图 5-130 所 示 ) : 


In[12]: gmm = GMM(n_components=4, covariance_type='full', random_state=42) 
plot_gmm(gmm, X_stretched) 
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图 5-130: GMM 的 四 个 非 圆 形 的 艇 
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从 图 中 可 以 明显 看 出 ，GMM 突破 了 前 面 k-means 算法 的 两 个 局 限 性 。 

选择 协 方差 的 类 型 

如 果 仔 细 观 察 前 面 的 拟 合 结果 ， 你 会 发 现 每 个 拟 合 的 covariance_type 选项 的 设置 是 不 同 
的 。 这 个 超 参数 控制 了 每 个 复 的 形状 自由 度 ， 其 设置 对 任何 问题 都 非常 重要 。 它 的 默认 设 
置 是 covariance_type="diag" ， 意 思 是 复 在 每 个 维度 的 尺寸 都 可 以 单独 设置 ， 椭 圆 边界 的 
主轴 与 坐标 轴 平 行 。 另 一 个 更 简单 、 更 快 的 模型 是 covariance_type="spherical"， 该 模型 
通过 约束 徐 的 形状 ， 让 所 有 维度 相等 。 这 样 得 到 的 聚 类 结果 和 大 means 聚 类 的 特征 是 相似 
的 ， 虽 然 两 者 并 不 完全 相同 。 还 有 一 个 更 复杂 、 计 算 复 杂 度 也 更 高 的 模型 (特别 适应 于 高 
维度 数据 ) 是 covariance_type="full"， 该 模型 允许 每 个 徐 在 任意 方向 上 用 椭圆 建 模 。 

可 以 用 这 三 种 方法 可 视 化 同一 个 聚 类 数据 ， 如 图 5-131 所 示 : 





























Covariance_type="diag" covariance_type="spherical" covariance_type="full" 











5-131: GMM 协 方差 类 型 的 可 视 化 


5.12.3 ”将 GMM 用 作 密 度 估计 
虽然 GMM 通常 被 归 类 为 聚 类 算法 ， 但 它 本 质 上 是 一 个 密度 估计 算法 ;也 就 是 说 ， 从 技 
术 的 角度 考虑 ， 一 个 GMM 拟 合 的 结果 并 不 是 一 个 聚 类 模型 ， 而 是 描述 数据 分 布 的 生成 
概率 模型 。 
例如 从 Scikit-Learn 的 make_moons 国 数 生成 的 一 些 数据 (可 视 化 结果 如 图 5-132 所 示 )， 这 
些 数据 在 5.11 节 介 绍 过 : 
In[13]: from sklearn.datasets import make_moons 
Xmoon，ymoon = make_moons(200, noise=.05, random_state=0) 
plt.scatter(Xmoon[:, 0], Xmoon[:, 1]); 
如 果 用 GMM 对 数据 拟 合 出 两 个 成 分 ， 那 么 作为 一 个 聚 类 模型 的 结果 ， 其 实 设 什么 用 (如 
图 5-133 所 示 ) : 


In[14]: gmm2 = GMM(N_components=2, covariance_ type='full', random state=0) 
plot_gmm(gmm2, Xmoon) 
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图 5-132: 将 GMM 应 用 于 非 线性 边界 聚 类 

















图 5-133: 用 带 两 个 成 分 的 GMM 拟 合 非 线性 的 类 


但 如 果 选 用 更 多 的 成 分 而 忽视 复 标 签 ， 就 可 以 找到 一 个 更 接近 输入 数据 的 拟 合 结果 (如 图 
5-134 所 示 ) : 


In[15]: gmm16 = GMM(N_components=16, covariance_type='full', random_state=0) 
plot_gmm(gmm16, Xmoon, label=False) 
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图 5-134: 用 很 多 GMM 簇 来 对 点 的 分 布 建 模 


这 里 采用 16 个 高 斯 曲线 的 混合 形式 不 是 为 了 找到 数据 的 分 隔 的 徐 ， 而 是 为 了 对 输入 数据 
的 总 体 分 布 建 模 。 这 就 是 分 布 函 数 的 生成 模型 一 一 GMM 可 以 为 我 们 生成 新 的 、 与 输入 数 
据 类 似 的 随机 分 布 函 数 。 例 如 ， 下 面 是 用 GMM 拟 合 原始 数据 获得 的 16 个 成 分 生成 的 400 
个 新 数据 点 (如 图 5-135 所 示 ) : 


In[16]: Xnew = gmm16.sample(400, random_state=42) 
plt.scatter(Xnew[:, 0], Xnew[:, 1]); 
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图 5-135: 带 16 个 成 分 的 GMM 生成 的 新 数据 
GMM 是 一 种 非常 方便 的 建 模 方法 ， 可 以 为 数据 估计 出 任意 维度 的 随机 分 布 。 
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需要 多 少 成 分 ? 

作为 一 种 生成 模型 ，GMM 提供 了 一 种 确定 数据 集 最 优 成 分 数量 的 方法 。 由 于 生成 模 

型 本 身 就 是 数据 集 的 概率 分 布 ， 因 此 可 以 利用 该 模型 来 评估 数据 的 似 然 估 计 ， 并 利用 

交叉 检验 防止 过 拟 合 。 还 有 一 些 纠 正 过 拟 合 的 标准 分 析 方 法 ， 例 如 用 赤 池 信息 量 准则 

(Akaike information criterion, AIC, https://en.wikipedia.org/wiki/Akaike_information_ 

criterion)、 贝 叶 斯 信息 准则 (Bayesian information criterion，BIC，https:/Wen.wikipedia. 

org/wiki/Bayesian_information_criterion) 调整 模型 的 似 然 估 计 。Scikit-Learn 的 GMM 评 

佑 器 已 经 内 置 了 以 上 两 种 度量 准则 的 计算 方法 ， 在 GMM 方法 中 使 用 它们 很 方便 。 

下 面 用 AIC 和 BIC 分 别 作为 月 球 数据 集 的 GMM 成 分 数量 的 函数 (如 图 5-136 所 示 ) : 
In[17]: n_components = np.arange(1, 21) 


models = [GMM(n, covariance_type='full', random_state=0).fit(Xmoon) 
for n in n_components] 




















plt.plot(n_components, [m.bic(Xmoon) for m in models], label='BIC') 
plt.plot(n_components, [m.aic(Xmoon) for m in models], label='AIC') 
plt.legend(loc='best') 

plt.xlabel('n_components'); 
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5-136: AIC 和 BIC 选择 GMM 成 分 数量 的 可 视 化 

















类 的 最 优 数量 出 现在 AIC 或 BIC 曲线 最 小 值 的 位 置 ， 最 终结 果 取 决 于 我 们 更 希望 使 用 哪 一 
种 近似 。AIC 告诉 我 们 ， 选 择 16 个 成 分 可 能 太 多 ，8 个 ~12 个 成 分 可 能 是 更 好 的 选择 。 由 
于 这 类 经 典 问题 的 存在 ，BIC 推荐 了 一 个 更 简单 的 模型 。 

这 里 需要 注意 的 是 : 成 分 数量 的 选择 度量 的 是 GMM 作为 一 个 密度 评估 器 的 性 能 ， 而 不 是 
作为 一 个 聚 类 算法 的 性 能 。 建 议 你 还 是 把 GMM 当成 一 个 密度 评估 器 ， 仅 在 简单 数据 集中 
才 将 它 作为 聚 类 算法 使 用 。 

















5.12.4 示例 : 用 GMM 生 成 新 的 数据 


前 面 介绍 了 一 个 将 GMM 作为 数据 生成 模型 的 示例 ， 目 的 是 根据 输入 数据 的 分 布 创建 一 个 
新 的 样本 集 。 这 次 还 利用 这 个 思路 ， 为 前 面 使 用 过 的 标准 手写 数字 库 生 成 新 的 手写 数字 。 


首先 ， 用 Scikit-Learn 的 数据 工具 导入 手写 数字 数据 : 

















In[18]: from sklearn.dat import Load_digits 
i 时 1 es 
digits.data.shape 


Out[18]: (1797, 64) 


然后 ， 画 出 前 100 个 数据 ， 看 看 这 些 数据 (如 图 5-137 所 示 ) : 


In[19]: def plot_ di its(data): 
fig, = plt.subplots(10, 10, figsize=(8, 8), 

subplot_kw=di. 到 ticks=[], yticks=[])) 

fig.s J ts | 0 space=0.05, wspace=0.05) 

fo 4 
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图 5-137: 输入 的 手写 数字 

现在 有 大 约 1800 个 64 维度 的 数字 ， 可 以 创建 一 个 GMM 模型 来 生成 更 多 的 数字 。GMM 
在 这 样 一 个 高 维 空间 中 可 能 不 太 容 易 收敛 ， 因 此 先 使 用 一 个 不 可 逆 的 降 维 算法 。 我 们 在 这 
里 直接 用 PCA， 让 PCA 算法 保留 投影 后 样本 数据 99% 的 方差 : 
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In[20]: from sklearn.decomposition import PCA 
pca = PCA(0.99，whiten=True) 
data = pca.fit_ transform(digits.data) 
data.shape 


Out[20]: (1797, 41) 


结果 降 到 了 41 维 ， 削 减 了 接近 1/3 的 维度 的 同时 ， 几 乎 没有 信息 损失 。 再 对 这 个 投影 数据 
使 用 AIC， 从 而 得 到 GMM 成 分 数量 的 粗略 估计 (如 图 5-138 所 示 ) : 


In[21]: n_components = np.arange(50, 210, 10) 
models = [GMM(n, covariance_type='full', random_state=0) 
for n in n_components] 
aics = [model.fit(data).aic(data) for model in models] 
plt.plot(n_components, aics); 
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5-138: 用 AIC 曲线 选择 合适 数量 的 GMM 成 分 





在 大 约 110 个 成 分 的 时 候 ，AIC 是 最 小 的 ， 因 此 我 们 打算 使 用 这 个 模型 
数据 ， 并 且 确 认 它 已 经 收敛， 
In[22]: gmm = GMM(110, covariance_type='full', random_state=0) 


gmm.fit(data) 
print(gmm.converged ) 











立刻 用 它 拟 合 





True 


现在 就 可 以 在 41 维 投影 空间 中 画 出 这 100 个 点 的 示例 ， 将 GMM 作为 生成 模型 : 


In[23]: data_new = gmm.sample(100, random_state=0) 
data_new.shape 





Out[23]: (100, 41) 


最 后 ， 可 以 通过 PCA 对 象 逆 变换 来 构建 新 的 数字 (如 图 5-139 所 示 ) : 








In[24]: digits_new = pca.inverse_transform(data_new) 
plot_digits(digits_ new 
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图 5-139: GMM 评估 器 模型 随机 画 出 的 “新 ”数字 

从 图 中 可 以 看 出 ， 大 部 分 数字 与 原始 数据 集 的 数字 别 无 二 致 。 

简单 回顾 上 述 操作 步骤 : 首先 获得 手写 数字 的 示例 数据 ， 然 后 构建 该 数据 的 分 布 模型 ， 最 
后 依据 分 布 模型 生成 一 批 新 的 示例 数字 。 这 些 “ 手 写 数字 ”并 不 会 单独 出 现在 原始 数据 集 
中 ， 而 是 获取 混合 模型 输入 数据 的 一 般 特 征 。 这 个 数字 生成 模型 同时 也 可 以 证 明 ， 生 成 模 
型 是 贝 叶 斯 生成 分 类 器 的 一 个 非常 有 用 的 成 分 ， 就 像 下 一 市 将 要 介绍 内 容 的 一 样 。 


5.13 专题: 核 密度 估计 


前 一 节 介绍 了 高 斯 混合 模型 (GMM) 一 一 一 个 聚 类 和 密度 评估 器 的 混合 体 。 我 们 之 前 提 
过 ， 密 度 评估 器 是 一 种 利用 D 维 数据 集 生成 D 维 概率 分 布 估计 的 算法 。GMM 算法 用 不 同 
高 斯 分 布 的 加 权 汇 总 来 表示 概率 分 布 估计 。 核 密度 估计 (kernel density estimation，KDE) 
算法 将 高 斯 混合 理念 扩展 到 了 逻辑 极限 (logical extreme)。 它 通过 对 每 个 点 生成 高 斯 分 布 
的 混合 成 分 ， 歼 得 本 质 上 是 无 参数 的 密度 评估 器 。 这 一 市 将 介绍 KDE 的 由 来 与 用 法 ， 以 
标准 的 输入 开始 : 
In[1]: %matplotlib inline 
matplotlib.pyplot as plt 
born as sns; sns. 


set() 

















import 
import sea 
import numpy as np 
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5.13.1 KDE 的 由 来 : 直方 图 


正如 前 面 所 讨论 过 的 ， 密 度 评估 器 是 一 种 寻找 数据 集 生成 概率 分 布 模型 的 算法 。 你 可 能 很 
熟悉 一 维 数据 的 密度 估计 一 一 直方 图 ， 那 是 一 个 简单 的 密度 评估 器 。 直 方 图 将 数据 分 成 若 
干 区 间 ， 统 计 落 入 每 个 区 间 内 的 点 的 数量 ， 然 后 用 直观 的 方式 将 结果 可 视 化 。 


例如 ， 下 面 创建 两 组 服从 正 态 分 布 的 数据 : 


In[2]: def make_data(N, f=0.3, rseed=1): 
rand = np.random.RandomState(rseed) 
x = rand.randn(N) 
x[int(f * N):] += 5 
return x 














x = make_data(1000) 


前 面 已 经 介绍 过 ， 基 于 计数 的 标准 直方 图 可 以 用 plt.hist() 函数 来 生成 。 只 要 确定 直方 图 
的 normed 参数 ， 就 可 以 得 到 一 个 正 态 分 布 直方 图 。 在 这 个 直方 图 中 ， 区 间 的 高 度 并 不 反映 
统计 频次 ， 而 是 反映 概率 密度 (如 图 5-140 所 示 ) : 


In[3]: hist = plt.hist(x, bins=30, normed=True) 
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5-140: 不 同 正 态 分 布 的 组 合 数据 


值得 注意 的 是 ， 在 区 间 不 变 的 条 件 下 ， 这 个 标准 化 (计算 概率 密度 ) 只 是 简单 地 改变 了 y 
轴 的 比例 ， 相 对 高 度 仍 然 与 频次 直方 图 一 致 。 标 准 化 是 为 了 让 直方 图 的 总 面积 等 于 1， 可 
以 通过 检查 直方 图 函数 的 输出 结果 来 确认 这 一 点 : 

In[4]: density, bins, patches = hist 


widths = bins[1:] - bins[:-1] 
(density * widths).sum() 











Out[4]: 1.0 

















使 用 直方 图 作为 密度 评估 器 时 需要 注意 的 是 ， 区 间 大 小 和 位 置 的 选择 不 同 ， 产 生 的 统计 特 
征 也 不 同 。 例 如 ， 如 果 只 看 数据 中 的 20 个 点 ， 选 择 不 同 的 区 间 将 会 出 现 完全 不 同 的 解读 
方式 (直方 图 )， 如 以 下 示例 (如 图 5-141 所 示 ) : 


In[5]: x = make_data(20) 
bins = np.linspace(-5, 10, 10) 











In[6]: fig, ax = plt.subplots(1, 2, figsize=(12, 4)， 
sharex=True, sharey=True, 
subplot_kw={'xlim':(-4, 9),， 
'ylim':(-0.02, 0.3)}) 
fig.subplots_adjust(wspace=0.05) 
for i, offset in enumerate([0.0, 0.6]): 
ax[i].hist(x, bins=bins + offset, normed=True) 
ax[i].plot(x, np.full_like(x, -0.01), '|k', 
markeredgewidth=1) 
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图 5-141: 直方 图 的 问题 ， 区 间 的 位 置 会 影响 数据 的 解读 方式 











左边 的 直方 图 很 清楚 地 显示 了 一 个 双 峰 分 布 ， 但 右边 的 图 却 显示 了 一 个 单 峰 分 布 ， 并 带 着 
一 个 长 尾 。 如 果 没 有 看 到 前 面 的 代码 ， 你 可 能 会 认为 这 两 个 直方 图 描述 的 是 不 同 的 数据 。 
这 样 怎么 能 相信 直方 图 的 可 视 化 结果 呢 ? 如 何 才 能 改进 这 个 问题 呢 ? 


让 我 们 先 退 一 步 ， 将 直方 图 看 成 是 一 扒 方块 ， 把 每 个 方块 堆 在 数据 集 每 个 数据 点 所 在 的 
间 内 。 通 过 图 来 直观 地 展示 (如 图 5-142 所 示 ) : 


In[7]: fig, ax = plt.subplots() 
bins = np.arange(-3, 8) 
ax.plot(x, np.full_like(x, -0.1), '|k', 
markeredgewidth=1) 
for count, edge in zip(*np.histogram(x, bins)): 
for i in range(count): 
ax.add_patch(plt.Rectangle((edge, i), 1, 1, 
alpha=0.5)) 






































加 | 


























ax.set xlim(-4, 8) 
ax.set_ylim(-0.2, 8) 


Out[7]: (-0.2, 8) 
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图 5-142: 方块 堆 苹 的 直方 图 


前 面 介绍 的 两 种 区 间 之 所 以 会 造成 解读 差异 ， 究 其 原因 在 于 方块 堆 琶 的 高 度 通常 并 不 能 
映 区 间 附 近 数 据点 的 实际 密度 ， 而 是 反映 了 区 间 如 何 与 数据 点 对 齐 。 区 间 内 数据 点 和 方块 
对 不 齐 将 可 能 导致 前 面 那样 糟糕 的 直方 图 。 但 是 ， 如 果 不 采 用 方块 与 区 间 对 章 的 形式 ， 而 
是 采用 方块 与 相应 的 数据 点 对 齐 的 方式 呢 ? 虽然 这 样 做 会 导致 方块 对 不 齐 ， 但 是 可 以 将 它 
们 在 x 轴 上 每 个 数据 点 位 置 的 贡献 求 和 来 找到 结果 。 下 面 来 试 一 试 (如 图 5-143 所 示 ) : 


In[8]: x_d = np.linspace(-4, 8, 2000) 
density = sum((abs(xi - x_d) < 0.5) for xi in x) 








plt.fill_ between(x_d, density, alpha=0.5) 
plt.plot(x, np.full_like(x, -0.1), '|k', markeredgewidth=1) 


plt.axis([-4, 8, -0.2, 8]); 
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图 5-143: 每 个 点 的 块 中 心 的 “直方 图 ”"， 这 是 一 个 核 密度 估计 示例 
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虽然 结果 看 起 来 有 点 杂乱 ， 但 与 标准 直方 图 相 比 ， 这 幅 图 可 以 更 全 面 地 反映 出 数据 的 真实 
特征 。 不 过 ， 这 些 粗 烽 的 线条 既 没 有 让 人 愉悦 的 美感 ， 也 不 能 反映 数据 的 任何 真实 性 质 。 
为 了 让 线条 显得 更 加 平滑 ， 我 们 也 许可 以 用 平滑 函数 取代 每 个 位 置 上 的 方块 ， 例 如 使 用 高 
斯 函数 。 下 面 用 标准 的 正 态 分 布 曲 线 代 替 每 个 点 的 方块 (如 图 5-144 所 示 ) : 

In[9]: from scipy.stats import norm 


x_d = np.linspace(-4, 8, 1000) 
density = sum(norm(xi).pdf(x_d) for xi in x) 

















plt.fill_between(x_d, density, alpha=0.5) 
plt.plot(x, np.full_like(x, -0.1), '|k', markeredgewidth=1) 


plt.axis([-4, 8, -0.2, 5]); 
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图 5-144: 用 高 斯 内 核实 现 的 核 密度 估计 


这 幅 平 请 的 图 像 是 由 每 个 点 所 在 位 置 的 高 斯 分 布 构成 的 ， 这 样 可 以 更 准确 地 表现 数据 分 布 
的 形状 ， 并且 拟 合 方差 更 小 (也 就 是 说 ， 进 行 不 同 的 抽样 时 ， 数 据 的 改变 更 小 )。 

最 后 两 幅 图 是 核 密度 估计 在 一 维 中 的 示例 ， 第 一 幅 图 用 的 是 “tophat” 核 ， 第 二 幅 图 用 的 
是 高 斯 核 。 接 下 来 将 对 核 密度 估计 进行 更 详细 的 介绍 。 


5.13.2” 核 密度 估计 的 实际 应 用 


核 密度 估计 的 自由 参数 是 核 类 型 (kernel) 参数 ， 它 可 以 指定 每 个 点 核 密度 分 布 的 形状 。 
而 核 带宽 (kernel bandwidth) 参数 控制 每 个 点 的 核 的 大 小 。 在 实际 应 用 中 ， 有 很 多 核 可 用 
于 核 密度 估计 ， 特 别 是 Scikit-Learn 的 KDE 实现 支持 六 个 核 ， 详 情 请 参见 Scikit-Learn 的 
核 密 度 估 计 文 档 (http:/scikit-learn.org/stable/modules/density.html) 。 

虽然 Python 中 有 许多 核 密度 估计 算法 实现 的 版 本 (特别 是 在 SciPy 和 StatsModels 包 中 )， 
但 是 我 更 倾向 于 使 用 Scikit-Learn 的 版 本 ， 因 为 它 更 高 效 、 更 灵活 ， 在 sklearn.neighbors. 
KernelDensity 评估 器 中 实现 ， 借 助 六 个 核 中 的 任意 一 个 核 、 二 三 十 个 距离 量度 就 可 以 处 
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理 具有 多 个 维度 的 KDE。 由 于 KDE 计算 量 非 常 大 ， 因 此 Scikit-Learn 评估 器 底层 使 用 了 一 
种 基于 树 的 算法 ， 可 以 利用 atol (绝对 容错 ) 和 rtol (相对 容错 ) 参数 来 平衡 计算 时 间 与 
准确 性 。 我 们 可 以 用 Scikit-Learn 的 标准 交叉 检验 工具 来 确定 自由 参数 核 带 宽 ， 后 面 将 会 
介绍 这 些 内 容 。 

下 面 先 来 看 一 个 简单 的 示例 ， 利 用 Scikit-Learn 的 KernelDensity 评估 器 来 重 现 前 面 的 图 像 
(如 图 5-145 所 示 ) : 


In[10]: from sklearn.neighbors import KernelDensity 

















# 初始 化 并 拟 合 KDE 模 型 
kde = KernelDensity(bandwidth=1.0, kernel='gaussian') 
kde.fit(x[:, None]) 


# score_samples 返 回 概率 密度 的 对 数值 
Logprob = kde.score_samples(x_d[:, None]) 





plt.fill_ between(x_d, np.exp(logprob), alpha=0.5) 
plt.plot(x, np.full_like(x, -0.01), '|k', markeredgewidth=1) 
plt.ylim(-0.02, 0.22) 


Out[10]: (-0.02, 0.22) 
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图 5-145: 用 Scikit-Learn 计算 的 核 密度 估计 

这 里 的 结果 经 过 了 标准 化 处 理 ， 保 证 曲线 下 的 面积 为 1。 

通过 交 又 检验 选择 带宽 

在 KDE 中 ， 带 宽 的 选择 不 仅 对 找到 合适 的 密度 估计 非常 重要 ， 也 是 在 密度 估计 中 控制 偏 
差 -方差 平衡 的 关键 : 带宽 过 窄 将 导致 估计 呈现 高 方差 〈 即 过 拟 合 ) ， 而 且 每 个 点 的 出 现 
或 缺失 都 会 引起 很 大 的 不 同 ， 带 宽 过 宽 将 导致 估计 呈现 高 偏差 ( 即 欠 拟 合 )， 而 且 带 宽 较 
大 的 核 还 会 破坏 数据 结构 。 














关于 如 何 利 用 统计 方法 快速 对 数据 作出 严格 假设 ， 从 而 确定 密度 估计 的 最 佳 带宽 的 研究 
由 来 已 入: 如果 你 查看 SciPy 和 StatsModels 包 中 KDE 的 实现 ， 就 能 看 到 这 些 规则 的 实 
现 过 程 。 


前 面 介绍 过 ， 机 器 学 习 中 超 参 数 的 调 优 通常 都 是 通过 交叉 检验 完成 的 。Scikit-Learn 团队 
在 设计 KernelDensity 评估 器 时 ， 就 设想 了 直接 使 用 Scikit-Learn 的 标准 网 格 搜索 工具 。 
这 里 用 GridsearchCV 来 优化 前 面 数 据 集 的 密度 估计 带宽 。 因 为 我 们 要 处 理 的 数据 集 规模 
比较 小 ， 所 以 使 用 留 一 法 进行 交叉 检验 ， 该 方法 在 每 一 次 做 交叉 检验 时 ， 都 会 最 小 化 训 
练 集 的 损失 : 


In[11]: from sklearn.grid_search import GridSearchCV 
from sklearn.cross_validation import LeaveOneOut 





















































bandwidths = 10 ** np.linspace(-1, 1, 100) 

grid = GridSearchCVv(KernelDensity(kernel='gaussian'), 
{'bandwidth': bandwidths}, 
cv=LeaveOneOut( len(x))) 

grid.fit(x[:, None]); 


现在 就 可 以 找到 似 然 估计 值 最 大 化 时 在 本 例 中 默认 是 对 数 似 然 估计 值 ) 的 带宽 : 


In[12]: grid.best_params_ 

















I 

















Out[12]: {'bandwidth': 1.1233240329780276} 

















这 个 最 优 带 宽 与 前 面 示例 图 像 中 使 用 的 带宽 非常 接近 ， 那 里 使 用 的 带宽 是 1.0 (也 是 
scipy.stats.norn 的 默认 宽度 )。 


5.13.3 示例 : 球形 空间 的 KDE 


KDE 可 能 最 常用 于 描述 数据 点 的 分 布 。 例 如 ， 在 Seaborn 可 视 化 库 中 (详情 请 参见 4.16 
节 )，KDE 是 内 置 画 图 函数 ， 可 以 自动 对 一 维和 二 维 空间 的 数据 进行 可 视 化 。 


下 面 将 介绍 一 个 稍 复 杂 些 的 KDE 数据 分 布 可 视 化 应 用 。 我 们 会 使 用 Scikit-Learn 的 一 些 地 
理 数 据 : 宰 哈 树 懒 (bradypus variegatus) 和 和 森林 小 稻 鼠 (microryzomys minutus) 这 两 种 南 
美洲 哺乳 类 动物 的 地 理 分 布 观测 值 。 


可 以 用 Scikit-Learn 直接 获取 数据 : 


In[13]: from sklearn.datasets import fetch_species_distributions 























data = fetch species distributions() 


# 获取 物种 ID 和 位 置 矩 阵 /数组 
latlon = np.vstack([data.train['dd lat'], 
data.train['dd Long']]).T 
species = np.array([d.decode('ascii').startswith('micro') 
for d in data.train['species']], dtype='int') 


导入 数据 后 ， 使 用 Basemap 工具 (详情 请 参见 4.15 节 ) 在 南美 洲 地 图 中 画 出 这 两 个 物种 
的 观测 位 置 (如 图 5-146 所 示 ) : 
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In[14]: from mpl_toolkits.basemap import Basemap 
from sklearn.datasets.species distributions import construct_grids 


xgrid, ygrid = construct_ grids(data) 








# 用 Basemap 画 出 海岸 线 

m = Basemap(projection='cyl', resolution='c', 
llcrnrlat=ygrid.min(), urcrnrlat=ygrid.max(), 
llcrnrlon=xgrid.min(), urcrnrlon=xgrid.max()) 

.drawmapboundary(fill_color="'#DDEEFF') 

.fillcontinents(color="'#FFEEDD') 

.drawcoastlines(color='gray', zorder=2) 

.drawcountries(color='gray', zorder=2) 


br- re- We er 


# 画 出 位 置 
m.scatter(latlon[:, 1], latlon[:, 0], zorder=3, 
c=species, cmap='rainbow', latlon=True); 




















5-146: 在 训练 数据 集中 画 出 物种 位 置 


不 过 这 幅 图 没有 很 好 地 显示 出 物种 密度 的 信息 ， 因 为 这 两 个 物种 的 数据 点 分 布 好 像 有 相互 
登 。 仅 通过 观察 大 概 发 现 不 了 ， 这 幅 图 上 其 实 有 超过 1600 个 数据 点 ! 


用 核 密 度 估 计 以 一 种 更 容易 解读 的 方式 显示 物种 分 布 信息 : 在 地 图 中 平 请 地 显示 密度 。 由 
于 地 图 坐标 系统 位 于 一 个 球面 ， 而 不 是 一 个 平面 上 ， 因 此 可 以 使 用 haversine 度量 距离 正 
确 表示 球面 上 的 距离 。 


虽然 下 面 的 代码 有 点 复杂 (Basemap 工具 的 缺点 之 一 ) ， 但 是 每 段 代 码 的 含义 应 该 还 是 清 
楚 的 (如 图 5-147 所 示 ) : 


In[15]: 

# 准备 画 轮 廓 图 的 数据 点 

X, Y = np.meshgrid(xgrid[::5], ygrid[::5][::-1]) 
Land_reference = data.coverages[6][::5, ::5] 
Land_mask = (Land_reference > -9999).ravel() 

xy = np.vstack([Y.ravel(), X.ravel()]).T 















































大 
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xy = np.radians(xy[land_mask]) 





# 创建 两 幅 并 排 的 图 

fig, ax = plt.subplots(1, 2) 

fig.subplots_adjust(left=0.05, right=0.95, wspace=0.05) 

species names = ['Bradypus Variegatus', 'Microryzomys Minutus'] 
cmaps = ['Purples', 'Reds'] 


for i, axi in enumerate(ax): 
axi.set title(species names[i]) 





# 用 Basemap 画 出 海岸 线 

m = Basemap(projection='cyl', llcrnrlat=Y.min(), 
urcrnrlat=Y.max(), llcrnrlon=X.min(), 
urcrnrlon=X.max(), resolution='c', ax=axi) 

m.drawmapboundary(fill_color="'#DDEEFF') 

m.drawcoastlines() 

m.drawcountries() 





# 构建 一 个 球形 的 分 布 核 密度 估计 
kde = KernelDensity(bandwidth=0.03, metric='haversine') 
kde.fit(np.radians(latlon[species == i])) 














只 计算 大 陆 的 值 ，-9999 表 示 古 海洋 
= np.full(land_mask.shape[0], -9999.0) 
[land_mask] = np.exp(kde.score_samples(xy)) 


# 
Z 
Z 
Z = Z.reshape(X.shape) 





# 夯 出 密度 的 轮廓 
levels = np.linspace(0, Z.max(), 25) 
axi.contourf(X, Y, Zz, levels=levels, cmap=cmaps[i]) 





Bradypus Variegatus Microryzomys Minutus 

















图 5-147: 物种 分 布 的 核 密度 表示 
与 最 开始 使 用 的 简单 散 点 图 相 比 ， 这 幅 可 视图 可 以 更 清楚 地 展示 两 个 物种 的 观察 分 布 。 
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5.13.4 示例 : 不 是 很 朴素 的 贝 叶 斯 


下 面 这 个 示例 是 用 KDE 做 贝 叶 斯 生成 分 类 ， 同 时 演示 如 何 使 用 Scikit-Learn 自 定义 评 
估 器 。 


在 5.5 节 中 ， 我 们 介绍 了 朴素 贝 叶 斯 分 类 方法 ， 为 每 一 个 类 创建 了 一 个 简单 的 生成 模型 ， 

并 用 这 些 模型 构建 了 一 个 快速 的 分 类 器 。 在 朴素 贝 叶 斯 分 类 中 ， 生 成 模型 是 与 坐标 轴 平 行 

的 高 斯 分 布 。 如 果 利 用 KDE 这 样 的 核 密度 估计 算法 ， 我 们 就 可 以 去 掉 “ 朴 素 ” 的 成 分 ， 

使 用 更 成 熟 的 生成 模型 描述 每 一 个 类 。 虽 然 它 还 是 贝 叶 斯 分 类 ， 但 是 它 不 再 朴素 。 

一 般 分 类 器 的 生成 算法 如 下 所 示 。 

() 通过 标签 分 割 训 练 数据 。 

(2) 为 每 个 集合 拟 合 一 个 KDE 来 获得 数据 的 生成 模型 ， 这 样 就 可 以 用 任意 x 观察 值 和 y 标 
签 计 算出 似 然 估计 值 P(xz|y)。 

(3) 根据 训练 集中 每 一 类 的 样本 数量 ， 计 算 每 一 类 的 先 验 概率 P() )。 

(4) 对 于 一 个 未 知 的 点 x， 每 一 类 的 后 验 概率 是 P(x|y) < P(x|y)P(y)， 而 后 验 概率 最 
大 的 类 就 是 分 配给 该 点 的 标签 。 

这 个 算法 简单 易 懂 ， 难 点 是 在 Scikit-Learn 框架 下 使 用 网 格 搜 索 和 交 又 检验 来 实现 。 

以 下 代码 是 用 Scikit-Learn 框架 对 上 面 算法 的 实现 ， 我 们 将 从 代码 中 详细 剖析 该 算法 : 


In[16]: from sklearn.base import BaseEstimator, ClassifierMixin 






































Ws 
























































class KDEClassifier(BaseEstimator, ClassifierMixin): 


"" 基 于 KDE 的 贝 叶 斯 生成 分 类 








参数 
bandwidth : float 
每 个 类 中 的 核 带 宽 





kernel : str 
核 函数 的 名 称 ， 传 递 给 KernelDensity 


def _ init (self, bandwidth=1.0, kernel='gaussian'): 
self.bandwidth = bandwidth 
self.kernel = kernel 


def fit(self, X, y): 
self.classes_ = np.sort(np.unique(y)) 
training_sets = [X[y == yi] for yi in self.classes_] 
self.models_ = [KernelDensity(bandwidth=self.bandwidth, 
kernel=self.kernel).fit(Xi) 
for Xi in training_sets] 
self.logpriors_ = [np.log(Xi.shape[0] / X.shape[0]) 
for Xi in training_sets] 
return self 
def predict proba(self, X): 


Logprobs = np.array([model.score_samples(X) 
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for model in self.models_]).T 
result = np.exp(Logprobs + seLf.Logpriors_) 
return result / result.sum(1, keepdims=True) 


def predict(self, X): 
return self.classes_[np.argmax(self.predict proba(X), 1)] 


1. 解析 自 定义 评估 器 
下 面 来 分 段 查 看 代码 ， 并 介绍 算法 的 主要 特征 : 


from sklearn.base import BaseEstimator, ClassifierMixin 





7 











class KDEClassifier(BaseEstimator, ClassifierMixin): 


""" 基 于 KDE 的 贝 叶 斯 生成 分 类 








参数 
bandwidth : float 
每 个 类 中 的 核 带宽 





kernel : str 


核 函 数 的 名 称 ， 传 递 给 KernelDensity 

在 Scikit-Learn 中 ， 每 个 评估 器 都 是 一 个 类 ， 这 个 类 可 以 很 方便 地 继承 BaseEstimator 类 
其 中 包含 了 各 种 标准 功能 ) ， 也 支持 适当 的 混合 类 (mixin， 多 重 继承 方法 )。 例 如 ， 除 了 
标准 功能 之 外 ，BaseEstinator 还 包含 复制 一 个 评估 器 的 必要 逻辑 ， 可 以 用 于 交叉 检验 。 另 
外 ，ClassifierMixin 也 定义 了 一 个 score() 方法 可 以 用 作 交 叉 检 验 。 后 面 会 提供 一 个 文档 
字符 串 ， 它 可 以 被 IPython 的 帮助 功能 捕获 到 (详情 请 参见 1.2 节 )。 

接 下 来 是 类 初始 化 方法 : 

def _ init (self, bandwidth=1.0, kernel='gaussian'): 


self.bandwidth = bandwidth 
seLf .kerneL = kernel 


这 是 KDECLassifier() 实例 化 对 象 时 执行 的 代码 。 在 Scikit-Learn 中 ， 除 了 将 参数 值 传递 给 
self 之 外 ， 初 始 化 不 包含 任何 操作 。 这 点 很 重要 ， 因 为 BaseEstimator 的 逻辑 需要 满足 用 
于 交叉 检验 、 网 格 搜索 和 其 他 功能 的 评估 器 的 复制 和 修改 需求 。 同 样 ，_init_ 中 所 有 的 
参数 都 是 显 式 的 ， 不 要 使 用 *args 或 **kwargs， 因 为 这 些 可 变 参 数 在 交叉 检验 方法 中 无 法 
被 正确 理解 。 


接 下 来 用 fit() 方法 处 理 训练 数据 : 


def fit(self, X, y): 

self.classes_ = np.sort(np.unique(y)) 

training_sets = [X[y == yi] for yi in self.classes_] 
self.models_ = [KernelDensity(bandwidth=self.bandwidth, 

kernel=self.kernel).fit(Xi) 
for Xi in training_sets] 
self.logpriors_ = [np.log(Xi.shape[0] / X.shape[0]) 
for Xi in training_sets] 





je 




































































return self 
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首先 在 训练 数据 集中 找到 所 有 类 (对 标签 去 重 )， 为 每 一 类 训练 一 个 KernelDensity 模型 ， 
然后 ， 根 据 输入 样本 的 数量 计算 类 的 先 验 概率 ， 最 后 用 fit() 函数 返回 self， 这 么 做 可 以 
串联 所 有 命令 ， 例 如 : 


label = model.fit(X, y).predict(X) 


请 注意 ， 所 有 拟 合 结果 都 将 存储 在 一 个 带 后 下 划 线 的 变量 中 (例如 self.logpriors_)。 这 
一 招 在 Scikit-Learn 中 很 好 使 ， 你 可 以 快速 浏览 一 个 评估 器 的 所 有 拟 合 结果 (利用 IPython 
的 Tab 自动 补 全 ) ， 并 且 查 看 哪个 结果 与 训练 数据 的 拟 合 最 好 。 


终于 ， 我 们 得 到 了 对 新 数据 进行 预测 的 逻辑 : 


def predict_ proba(self, XxX): 
Logprobs = np.vstack([model.score_samples(X) 
for model in self.models_]).T 
result = np.exp(Logprobs + seLf.Logpriors_) 
return result / result.sum(1, keepdims=True) 




















def predict(self, Xx): 
return self.classes_[np.argmax(self.predict proba(X), 1)] 

因为 这 是 一 个 概率 分 类 器 ， 所 以 首先 实现 predict_proba()， 它 返回 的 是 每 个 类 概率 的 数 
组 ， 数 组 的 形状 为 [n_samples，n_classes]。 这 个 数组 中 的 [i，j] 表示 样本 iL 属于 j 类 的 
后 验 概 率 ， 用 似 然 估 计 先 乘 以 类 先 验 概率 ， 再 进行 归 一 化 。 

最 后 ，predict() 国 数 根据 这 些 概率 ， 返 回 概率 值 最 大 的 类 。 

2. 使 用 自 定 义 评估 器 

来 尝试 用 自 定义 评估 器 解决 前 面 介 绍 过 的 一 个 问题 : 手写 数字 的 分 类 问题 。 首 先导 入 手 
写 数字 ， 然 后 对 一 个 带宽 范围 内 的 数据 使 用 GridSearchcy 元 评估 器 (详情 请 参见 5.3 节 )， 
从 而 计算 交叉 检验 值 : 


In[17]: from sklearn.datasets import Load_digits 
from skLearn.grid_search import GridSearchCV 























digits = load digits() 


bandwidths = 10 ** np.linspace(0, 2, 100) 
grid = GridsearchCV(KDECLassifier(), {'bandwidth': bandwidths}) 
grid.fit(digits.data, digits.target) 


scores = [val.mean_validation score for val in grid.grid scores_| 


接 下 来 画 出 交叉 检验 值 曲 线 ， 用 交叉 检验 值 作为 带宽 国 数 (如 图 5-148 所 示 ) : 


In[18]: plt.semilogx(bandwidths, scores) 
plt.xlabel('bandwidth') 
plt.ylabel('accuracy') 
plt.title('KDE Model Performance') 
print(grid.best_params_) 
print('accuracy ='，grid.best_score_) 














{'bandwidth': 7.0548023107186433} 
accuracy = 0.966611018364 





KDE Model Performance 
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图 5-148: 基于 KDE 的 贝 叶 斯 分 类 器 验证 曲线 


我 们 发 现 ， 这 个 不 是 很 朴素 的 贝 叶 斯 分 类 器 的 交叉 检验 准确 率 达 到 了 96%， 而 朴素 贝 叶 斯 
分 类 器 的 准确 率 仅 有 80%: 
In[19]: from sklearn.naive_ bayes import GaussianNB 


from sklearn.cross_validation import cross_val_score 
cross_val_score(GaussianNB(), digits.data, digits.target).mean() 





Out[19]: 0.81860038035501381 
这 种 生成 分 类 器 的 好 处 是 结果 很 容易 解释 : 我 们 不 仅 得 到 了 每 个 未 知 样本 的 一 个 带 概率 的 
分 类 结果 ， 而 且 还 得 到 了 一 个 可 以 对 比 的 数据 点 分 布 全 模型 (full model) 。 如 果 需 要 的 话 ， 
这 个 分 类 器 还 可 以 提供 一 个 直观 的 可 视 化 观察 窗口 ， 而 SVM 和 随机 森林 这 样 的 算法 却 难 
以 实现 这 个 功能 。 
如 果 你 还 想 进一步 改进 这 个 KDE 分 类 模型 ， 那 么 可 以 这 么 做 。 
。 人 允许 每 一 个 类 的 带宽 各 不 相同 。 
。 不 用 预测 值 优化 带宽 ,而 是 基于 训练 数据 中 每 一 个 类 生成 模型 的 似 然 估 计 值 优化 带宽 ( 即 
使 用 KernelDensity 的 值 ， 而 不 使 用 预测 的 准确 值 ) 。 
最 后 ， 如 果 你 希望 构建 自己 的 评 佑 器， 那么 也 可 以 用 高 斯 混合 模型 代替 KDE 来 构建 一 个 
类 似 的 贝 叶 斯 分 类 器 。 


5.14 应 用 : 人 脸 识 别管 道 


虽然 本 章 介 绍 了 许多 机 器 学 习 的 核心 概念 和 算法 ， 但 是 将 这 些 概念 应 用 到 真实 工作 中 还 是 
有 难度 的 。 真 实 世 界 的 数据 集 通常 都 充满 噪音 和 杂质 ， 有 的 可 能 是 缺少 特征 ， 有 的 可 能 是 
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数据 形式 很 难 转换 成 整齐 的 [n_samples，n_features] 特征 矩阵 。 当 你 应 用 本 章 介绍 的 任何 
方法 之 前 ， 都 需要 先 从 数据 中 提取 特征 。 怎 么 提取 特征 这 件 事情 并 没 





据 科学 家 不 断 地 磨炼 直觉 、 积 累 经 验 。 
机 器 学 习 中 最 有 趣 、 也 是 最 具 挑 战 性 的 任务 就 是 图 像 识别 ， 


素 级 特征 进行 分 类 学 习 的 案例 。 在 真实 世界 中 ， 数 据 通 常 不 会 像 数 据 集 ee 
单 的 像素 特征 就 不 合适 了 。 也 正 因 如 此 ， 有 关 图 像 数 据 特 征 提取 方法 的 研究 取得 了 大 量 

















果 (详情 请 参见 5.4 市 )。 























有 万 灵 药 ， 只 能 靠 数 

















前 面 也 已 经 介绍 过 一 些 通过 像 
再 用 简 





在 本 节 中 ， 我 们 将 介绍 一 种 图 像 特 征 提取 技术 一 一 方向 梯度 直方 图 (Histogram of 
Oriented Gradients，HOG，http://bit.ly/2fCEAcb)。 它 可 以 将 图 像 像 
与 图 像 具体 内 容 有 关 ， 与 图 像 合成 因素 无 关 ， 如 照度 (illumination ) 。 
征 ， 使 用 前 面 介绍 过 的 机 器 学 习 算 法 和 内 容 开 发 一 个 简单 的 人 脸 识 别管 道 。 首 先 还 是 导 









































入 标准 的 程序 库 : 


In[1]: %matplotlib inline 
import matplotlib.pyplot as plt 
import seaborn as sns; sns.set() 
import numpy as np 





5.14.1 HOG 特 征 








素 转换 成 向 量 形式 ， 
我 们 将 根据 这 些 特 








方向 梯度 直方 图 是 一 个 简单 的 特征 提取 程序 ， 专 门 用 来 识别 有 行人 (pedestrians) 的 图 像 


内 容 。HOG 方法 包含 以 下 五 个 步骤 。 


(1) 图 像 标准 化 〈 可 选 )， 消 除 照度 对 图 像 的 影响 。 
(2) 用 与 水 平和 垂直 方向 的 亮度 梯度 相关 的 两 个 过 滤器 处 理 
言 息 。 














(3) 将 图 像 切 制 成 预定 义 大 小 的 图 块 ， 然 后 计算 每 个 图 块 内 梯度 方向 的 频次 直方 图 。 
(4) 对 比 每 个 图 块 与 相 邻 图 块 的 频次 直方 图 ， 并 做 标准 化 处 理 ， 























影响 。 
(5) 获得 描述 每 个 图 块 信息 的 一 维特 征 向 量 。 





图 像 ， 捕 捉 











图 像 的 边 、 角 和 纹理 














进一步 消除 照度 对 图 像 的 








Scikit-Image 项 目 内 置 了 一 个 快速 的 HOG 提取 器 ， 可 以 用 它 快速 获取 并 可 视 化 每 个 图 块 的 





方向 梯度 (如 图 5-149 所 示 ) : 


In[2]: from skimage import data, color, feature 
import skimage.data 











image = color.rgb2gray(data.chelsea()) 


hog_vec, hog_vis = feature.hog(image, visualise=True) 


fig, ax = plt.subplots(1, 2, figsize=(12, 6), 


subplot_ kw=dict(xticks=[], yticks=[])) 


ax[0].imshow(image, cmap='gray') 
ax[0].set title('input image') 


ax[1].imshow(hog_vis) 


ax[1].set_title('visualization of HOG features'); 
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input image visualization of HOG features 











图 5-149: 用 HOG 方法 提取 的 图 像 特征 可 视 化 


5.14.2”HOG 实 战 : 简单 人 脸 识别 器 


有 了 图 像 的 HOG 特征 后 ， 





就 可 以 用 Scikit-Learn 的 任意 评估 器 建立 一 个 简单 人 脸 识 别 算 


法 ， 这 里 使 用 线性 支持 向 量 机 (详情 请 参见 5.7 节 )， 有 具体 步骤 如 下 。 


(获取 一 组 人 脸 图 像 缩 略 


图 ， 构 建 “ 正 ”(positive) 训练 样本 。 

















(2) 获 取 另 一 组 人 脸 图 像 缩 略 图 ， 构 建 “ 负 ”(negative) 训练 样本 。 


(3) 提取 训练 样本 的 HOG 特征 。 
(4) 对 样本 训练 一 个 线性 SVM 模型 。 











(5) 为 “未 知 ” 图 像 传递 一 个 移动 的 窗口 ， 用 模型 评估 窗口 中 的 内 容 是 否 是 人 脸 。 
(6) 如 果 发 现 和 已 知 图 像 重 全 ， 就 将 它们 组 合成 一 个 窗口 。 























下 面 一 步 一 步 来 实现 。 
(1) 获取 一 组 正 训 练 样本 。 





首先 找 一 些 能 体现 人 脸 变 化 的 图 像 作 为 正 训练 样 本 。 获 取 这 些 图 像 的 方法 很 简单 一 一 
Wild 数据 集 里 面 带 标签 








的 人 脸 图 像 就 是 ， 用 Scikit-Learn 可 以 直接 下 载 : 


In[3]: from sklearn.datasets import fetch_lfw_people 
faces = fetch_lfw_people() 
positive_patches = faces.images 
positive_patches.shape 


Out[3]: (13233, 62, 47) 


这 样 就 可 以 获得 用 于 训练 的 13 000 张 照 请 了 。 


(2) 获取 一 组 负 训练 样本 。 


之 后 需要 获取 一 组 近似 大 小 的 缩 略图 ， 但 它们 不 在 训练 样本 中 。 解 决 这 个 问题 的 一 种 方 
法 是 引入 别 的 图 像 语料库 ， 然 后 再 按 需求 抽取 缩 略 图 。 这 里 使 用 Scikit-Image 的 图 像 数 
据 ， 再 用 Scikit-Image 的 PatchExtractor 提取 缩 略图 ; 


In[4]: from skimage import data, transform 


imgs_to_use = 






































['camera', 'text', 'coins', 'moon', 
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'page', 'clock', 'immunohistochemistry', 
'chelsea', 'coffee', 'hubble deep field'] 
images = [color.rgb2gray(getattr(data, name)()) 
for name in imgs_to_use] 


In[5]: 
from sklearn.feature_extraction.image import PatchExtractor 


def extract_patches(img, N, scale=1.0, 
patch_size=positive_patches[0].shape): 
extracted_patch_size = \ 
tuple((scale * np.array(patch_size)).astype(int)) 
extractor = PatchExtractor(patch_size=extracted_patch_size, 
max_patches=N, random_state=0) 
patches = extractor.transform(img[np.newaxis]) 
if scale != 1: 
patches = np.array([transform.resize(patch, patch_size) 
for patch in patches]) 
return patches 


negative_patches = np.vstack([extract_patches(im, 1000, scale) 
for im in images for scale in [0.5, 1.0, 2.0]]) 


negative_patches.shape 


Out[5]: (30000, 62, 47) 


现在 就 有 了 30 000 张 尺寸 合适 、 未 经 识别 的 图 像 。 先 来 看 一 些 图 像 ， 直 观感 受 一 下 (如 


5-150 所 示 ) : 


In[6]: fig, ax = plt.subplots(6, 10) 
for i, axi in enumerate(ax.flat): 
axi.imshow(negative_patches[500 * i], cmap='gray') 
axi.axis('off') 
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5-150: 没有 人 脸 的 负 图 像 训练 集 
我 们 希望 这 些 图 像 可 以 让 我 们 的 算法 学 会 “没有 人 脸 ” 是 什么 样子 
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(3) 组 合 数据 集 并 提取 HOG 特征 。 


现在 就 有 了 正 样本 和 负 样本 。 将 它们 组 合 起 来 ， 然 后 计算 HOG 特征 。 这 些 步骤 需要 耗 
点 儿 时 间 ， 因 为 对 每 张 图 象 进行 HOG 特征 提取 的 计算 量 可 不 小 : 


In[7]: from itertools import chain 
Xx_train = np.array([feature.hog(im) 
for im in chain(positive_patches, 
negative_patches)]) 
y_train = np.zeros(X_train.shape[0]) 
y_train[:positive patches.shape[0]] = 1 























In[8]: Xx_train.shape 
Out[8]: (43233, 1215) 
这 样 ， 我 们 就 获得 了 43 000 个 训练 村 
阵 ， 就 可 以 给 Scikit-Learn 训练 了 。 
(4) 训练 一 个 支持 向 量 机 。 
下 面 用 本 章 介绍 过 的 工具 来 创建 一 个 缩 略 图 分 类 器 。 对 于 高 维度 的 二 元 分 类 (是 不 是 人 
脸 ) 任务 ， 用 线性 支持 向 量 机 是 个 不 错 的 选择 。 这 里 用 Scikit-Learn 的 LitnearSVC， 因 为 
它 比 SVC 更 适合 处 理 大 样本 数据 。 
首先 ， 用 简单 的 高 斯 朴素 贝 叶 斯 分 类 器 算 一 个 初始 解 : 


In[9]: from sklearn.naive_bayes import GaussianNB 
from sklearn.cross_validation import cross_val_score 





本 ， 每 个 样本 有 1215 个 特征 。 现 在 有 了 特征 甜 
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Cross_val_score(GaussianNB(), X_train, y_train) 
Out[9]: array([ 0.9408785 ， 0.8752342 ， 0.93976823]) 


我 们 发 现 ， 对 于 训练 数据 ， 即 使 用 简单 的 朴素 贝 叶 斯 算法 也 可 以 获得 90% 以 上 的 准确 
率 。 现 在 再 用 支持 向 量 机 分 类 ， 用 网 格 搜索 获取 最 优 的 边界 软化 参数 C: 


In[10]: from sklearn.svm import LinearSVC 
from skLearn.grid_search import GridSearchCV 
grid = GridsearchCV(LinearSVC(), {'C': [1.0, 2.0, 4.0, 8.0]}) 
grid.fit(X_train, y_train) 
grid.best_score_ 








Out[10]: 0.98667684407744083 
In[11]: grid.best_params_ 
Out[11]: {'C': 4.0} 


用 最 优 的 评估 器 重新 训练 数据 集 : 


In[12]: model = grid.best estimator_ 
model.fit(X_train, y_train) 
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Out[12]: LinearSVC(C=4.0, class_weight=None, dual=True, 
fit intercept=True, intercept_scaling=1, 
loss='squared_hinge', max_iter=1000, 
multi_class='ovr', penalty='l2', 
random_state=None, tol=0.0001, verbose=0) 





























(5) 在 新 图 像 中 寻找 人 脸 。 
模型 已 经 训练 完成 ， 让 我 们 拿 一 张 新 图 像 检 验 模型 的 训练 效果 。 使 用 一 张 宇航 员 照 片 的 局 
部 图 像 (详情 请 参见 5.14.3 节 )， 在 上 面 运行 一 个 移动 窗口 来 评估 每 次 移动 的 结果 (如 图 
































5-151 所 示 ) : 


In[13]: test_image = skimage.data.astronaut() 
test_image = skimage.color.rgb2gray(test image) 
test_image = skimage.transform.rescale(test_image, 0.5) 
test_image = test_image[:160, 40:180] 


plt.imshow(test_ image, cmap='gray') 
plt.axis('off'); 














图 5-151: 一 幅 用 于 人 脸 识别 的 图 像 
然后 ， 创 建 一 个 不 断 在 图 像 中 移动 的 窗口 ， 然 后 计算 每 次 移动 位 置 的 HOG 特征 : 





In[14]: def sliding window(img, patch_size=positive_patches[0].shape, 
istep=2, jstep=2, scale=1.0): 
Ni, Nj = (int(scale * s) for s in patch_size) 
for i in range(0, img.shape[0] - Ni, istep): 
for j ;in range(0, img.shape[1] - Ni, jstep): 
patch = img[i:i + Ni, j:j + Nj] 
if scale != 1: 
patch = transform.resize(patch, patch_size) 
yield (i, j), patch 


indices, patches = zip(*sliding window(test_ image)) 
patches_hog = np.array([feature.hog(patch) for patch in patches]) 
patches_hog. shape 


Out[14]: (1911, 1215) 
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最 后 ， 收 集 这 些 HOG 特征 ， 并 用 训练 好 的 模型 来 评估 每 个 窗口 中 是 否 有 人 脸 : 
In[15]: labels = model.predict(patches_hog) 
labels.sum() 
Out[15]: 33.0 
在 近 2000 幅 图 像 中 ， 总 共 发 现 了 33 幅 带 人 脸 的 图 像 。 用 算 形 把 收集 到 的 信息 画 在 图 像 上 
(如 图 5-152 所 示 ) : 


In[16]: fig, ax = plt.subplots() 
ax.imshow(test_image, cmap='gray') 
ax.axis('off') 

















Ni, Nj = positive_patches[0].shape 
indices = np.array(indices) 


for i, j in indices[labels == 1]: 
ax.add_patch(plt.Rectangle((j, i), Nj, Ni, edgecolor='red', 
aLpha=0.3，Lw=2， 
facecoLor='none ')) 

















图 5-152: 包含 人 脸 的 窗口 


所 有 窗口 都 重 释 在 一 起 ， 并 找到 了 图 像 中 的 人 脸 ! 简单 的 几 行 Python 代码 就 有 着 巨大 
的 威力 。 


5.14.3 注意 事项 与 改进 方案 
如 果 你 继续 研究 前 面 的 代码 和 示例 ， 就 会 发 现在 发 布 一 个 产品 级 的 人 脸 识别 器 之 前 ， 还 有 
一 些 工作 要 做 。 有 些 问 题 已 经 解决 了 ， 但 还 有 一 些 内 容 有 待 完善 。 
我 们 的 训练 集 ， 尤 其 是 负 样 本 特征 (negative feature) 并 不 完整 
这 个 问题 的 关键 在 于 ， 有 许多 类 似 人 脸 的 纹理 并 不 在 训练 集 里 面 ， 因 此 我 们 的 模型 非常 
容易 产生 假 正 错 误 (false positives)。 如 果 你 用 前 面 的 算法 评估 完整 的 宇航 员 照 片 就 可 
能 会 出 错 : 模型 可 能 会 将 图 像 的 其 他 地 方 误 判 为 人 脸 。 
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如 果 引 入 更 多 的 负 训 练 集 图 像 ， 应 该 可 以 改善 这 个 问题 。 另 一 种 改善 方案 是 用 更 直接 的 
方法 ， 例 如 困难 负 样 本 挖掘 (hard negative mining)。 在 困难 负 样 本 挖掘 方法 中 ， 给 分 类 
器 看 一 些 没 见 过 的 新 图 像 ， 找 出 所 有 分 类 器 识别 错误 的 假 正 图 像 ， 然 后 将 这 些 图 像 增加 
到 训练 集中 ， 再 重新 训练 分 类 器 。 
目前 的 管道 只 搜索 一 个 尺寸 

我 们 的 算法 会 丢失 一 些 尺 寸 不 是 62 像素 x 47 像素 的 人 脸 。 我 们 可 以 采用 不 同 尺寸 的 
窗口 来 解决 这 个 问题 ， 每 次 将 图 形 提供 给 模型 之 前 ， 都 用 skimage.transform.resize 重 
置 图 像 尺 寸 一 一 其 实 前 面 使 用 的 stiding_window() 函数 已 经 具备 这 种 功能 。 


应 该 将 包含 人 脸 的 重合 窗口 合并 
一 个 产品 级 的 管道 不 应 该 让 同一 张 脸 重复 出 现 30 次 ， 而 是 将 这 些 重生 的 窗口 合并 成 
一 个 。 这 个 问题 可 以 通过 一 个 无 监督 的 聚 类 方法 (MeanShift 聚 类 就 是 解决 这 个 问题 的 
好 办 法 ) 来 解决 ， 或 者 通过 机 器 视觉 常用 的 算法 ， 例 如 非 极 大 值 抑制 (nonmaximum 
Suppression) 来 解决 。 

管道 可 以 更 具 流 线 型 
一 旦 解决 了 以 上 问题 ， 就 可 以 创建 一 个 更 具 流 线 型 的 管道 ， 将 获取 训练 图 像 和 预测 请 动 
窗口 输出 的 功能 都 封装 在 管道 中 ， 那 样 效果 会 更 好 。 这 正体 现 了 Python 作为 一 个 数据 
科学 工具 的 优势 : 只 要 花 一 点 儿 功 夫 ， 就 可 以 完成 原型 代码 ， 并 将 其 打包 成 设计 优 恨 
的 面向 对 象 API， 让 用 户 可 以 轻松 地 使 用 它们 。 我 觉得 这 条 建议 可 以 作为 “读者 练习 ”， 
感 兴趣 的 读者 可 以 试 试 。 

应 该 考虑 使 用 更 新 的 技术 ， 例 如 深度 学 习 
不 得 不 说 ，HOG 和 其 他 图 像 特征 提取 方法 已 经 不 是 最 新 的 技术 了 。 许 多 流行 的 物体 识 
别管 道 都 在 使 用 各 种 深度 神经 网 络 (deep neural network) 。 你 可 以 将 神经 网 络 看 成 一 种 
评估 器 ， 有 具有 自我 学 习 的 能 力 ， 可 以 从 数据 中 确定 最 优 特征 提取 策略 ， 而 不 需要 依赖 用 
户 的 直觉 。 虽 然 有 关 深 度 神经 网 络 方法 的 内 容 (以 及 计算 量 ) 超出 了 本 节 涵 盖 的 范围 ， 
但 是 开源 工具 (如 谷歌 的 TensorFlow，https:Wwww.tensorflow.org/) 已 经 让 深度 学 习 方 
法 不 再 那么 高 高 在 上 。 在 我 写 这 本 书 的 时 候 ， 由 于 Python 的 深度 学 习 还 不 太 成 熟 ， 因 
此 还 不 能 推荐 学 习 资 源 ， 不 过 下 一 市 介绍 的 参考 资料 非常 适合 机 器 学 习 新 手 入 门 。 


5.15 机 器 学 习 参 考 资料 


这 一 章 是 Python 机 器 学 习 的 快速 入 门 ， 主 要 使 用 Scikit-Learn 中 的 工具 。 虽 然 本 章 很 长 ， 
但 是 仍然 有 一 些 非 常 有 趣 且 重要 的 算法 、 方 法 和 论述 没有 介绍 到 。 在 这 里 ， 我 想 为 那些 有 
意愿 继续 学 习 机 器 学 习 算 法 的 人 推荐 一 些 资源 。 


5.15.1 Python 中 的 机 器 学 习 
如 果 想 了 解 Python 机 器 学 习 的 更 多 内 容 ， 建 议 你 使 用 以 下 资源 。 


Scikit-Learn 网 站 (http://scikit-learn.org) 
Scikit-Learn 网 站 中 不 仅 有 本 章 涉及 的 一 些 模型 的 更 有 深度 的 文档 和 示例 ， 还 有 很 多 很 




































































































































































446 | 第 5 章 

















多 有 用 的 内 容 。 如 果 你 希望 了 解 最 重要 并 且 最 常用 的 机 器 学 习 算 法 ， 这 个 网 站 是 一 个 非 
常 好 的 起 点 。 
SciPy、PyCon 和 PyData 教程 视频 
Scikit-Learn 和 其 他 机 器 学 习 主 题 一 直 是 许多 Python 会 议 最 受 欢迎 的 教程 之 一 ， 特 别 是 
PyCon、SciPy 和 PyData 会 议 。 你 可 以 通过 网 络 搜索 找到 最 新 的 视频 教程 。 
《Python 机 器 学 习 入 门 》 
本 书 作 者 是 Andreas C. Mueller 和 Sarah Guido， 有 关于 本 章 话 题 更 详细 的 介绍 。 如 果 你 
对 机 器 学 习 的 基础 知识 感 兴趣 ， 并 想 探究 Scikit-Learn 工具 的 使 用 方法 ， 这 本 书 将 是 一 
个 很 好 的 资源 ， 它 由 Scikit-Learn 开发 团队 中 最 多 产 的 开发 者 之 一 撰写 。 
《Python 机 器 学 习 》 
Sebastian Raschka 的 这 本 书 对 Scikit-Learn 的 关注 不 多 ， 更 多 涉及 的 是 Python 中 可 用 的 
机 器 学 习 工 具 ， 其 中 有 一 些 关 于 如 何 将 Python 的 机 器 学 习 方 法 用 于 大 规模 、 复 杂 数 据 
集 的 实用 讨论 。 


5.15.2 通用 机 器 学 习 资 源 

当然 ， 机 器 学 习 比 Python 世界 更 加 广阔 ， 还 有 很 多 好 的 资源 可 以 扩充 你 的 知识 面 ， 这 里 列 

出 一 些 我 觉得 非常 有 用 的 。 

Machine Learning (https:/www.coursera.org/learn/machine-learning) 
讲师 为 Andrew Ng (Coursera)， 是 一 门 通俗 易 懂 还 免费 的 教学 课程 ， 从 算法 的 角度 介绍 
了 很 多 机 器 学 习 的 基础 知识 。 这 门 课程 要 求学 习 者 具备 大 学 生 水 平 的 数学 和 编程 背景 知 
识 ， 否 则 无 法 识 刻 理 解 一 些 最 重要 的 机 器 学 习 算法 的 精 央 。 课 后 作业 也 是 关于 算法 设计 
的 ， 需 要 你 自己 动手 实现 某 些 算法 模型 。 

Pattern Recognition and Machine Learning (http://www.springer.com/us/book/9780387310732) 
这 本 经 典 教材 的 作者 是 Christopher Bishop， 其 中 包含 了 本 章 涉 及 算法 的 详细 讲解 。 如 果 
你 计划 在 这 一 领域 继续 深入 学 习 ， 你 应 该 拥有 这 样 一 本 书 。 

Machine Learning: A Probabilistic Perspective (https://mitpress.mit.edu/books/machine-learning-0) 
本 书 作者 是 Kevin Murphy， 是 一 本 非常 好 的 研究 生 教材 ， 它 以 一 个 统一 的 概率 视角 介 
绍 了 几乎 所 有 的 机 器 学 习 算法 。 

这 些 资源 都 比 本 书 介绍 的 内 容 更 专业 ， 但 如 果 想 真正 理解 这 些 方法 的 根基 ， 还 需要 深入 理 

解 这 些 算法 背后 的 数学 含义 。 如 果 你 已 经 准备 好 迎 难 而 上 ， 在 数据 科学 领域 再 上 一 层 楼 ， 

那么 别 犹 移 ， 去 深入 学 习 ! 
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关于 作者 


Jake VanderPlas 是 Python 科学 栈 的 深度 用 户 和 开发 者 ， 目 前 是 华盛顿 大 学 eScience 学 院 物 
理科 学 研究 院 院 长 ， 研 究 方 向 为 天 文学 。 同 时 ， 他 还 为 很 多 领域 的 科学 家 提供 建议 和 咨询 。 


关于 封面 

《Python 数据 科学 手册 》 的 封面 动物 是 墨西哥 念珠 蜥 蝎 ( 珠 毒 蜥 ，Heloderma horridum ) ， 
生活 在 墨西哥 及 危地马拉 的 部 分 地 区 。 它 和 大 毒 蜥 ( Gila monster， 也 是 它 的 近亲 ) 是 世 
界 上 仅 存 的 有 毒 蜥 蝎 。 这 种 动物 主要 进食 蛋 类 ， 因 此 它 的 毒液 有 防御 的 功能 。 当 受到 敌人 
威胁 时 ， 因 为 无 法 立刻 释放 大 量 毒素 ， 所 以 它 会 牢 牢 咬 住 敌人 ， 并 通过 咀嚼 动作 将 毒素 渗 
透 到 敌人 的 伤口 中 。 虽 然 这 种 咬 伤 和 毒液 的 后 续 反应 是 非常 痛苦 的 ， 但 是 很 少 会 对 人 类 造 
成 致命 的 伤害 。 

在 希腊 语 中 ， 毒 蜥 属 (heloderma) 一 词 被 翻译 为 “ 布 满 颗粒 的 皮肤 ”， 指 的 是 这 种 哺乳 动 
物 特有 的 念珠 纹理 的 皮肤 。 这 些 突起 就 是 皮肤 骨 化 ， 即 皮肤 中 包含 一 小 块 骨头 作为 一 种 保 
护 性 盔甲 。 黑 西 哥 念珠 蜥 蝎 是 黑色 的 ， 带 有 黄色 的 班 块 或 班 带 。 他 有 一 个 宽 宽 的 头 和 一 条 
厚重 的 尾巴 这 条 尾巴 中 储存 着 大 量 脂肪 ， 帮 助 在 夏天 不 爱 动 的 它 度 过 炎夏 。 这 类 蜥 蝎 平 
均 长 22 英寸 ~36 英 寸 ( 约 56 厘 米 ~92 厘 米 ), 重 达 1.8 磅 ( 约 0.8 千克 )。 


和 大 多 数 蛇 和 蜥 蝎 一 样 ， 墨 西 哥 念 珠 蜥 蝎 的 天 头 也 是 它 的 主要 感受 器 官 。 它 会 反复 伸 出 
埋头 ， 收 集 环 境 中 的 气味 分 子 并 探测 猎物 (或 者 在 交配 季节 寻找 潜在 的 伴侣 )。 当 伸 出 的 
去 头 再 次 缩 进 嘴 里 时 ， 它 会 触 碰 到 雅克 布 示 器官 (Jacobson's organ) ， 这 是 一 片 传 感 细胞 ， 
可 以 识别 各 种 化 学 物质 和 信息 素 。 

墨西哥 念珠 蜥 意 的 毒液 中 合成 了 可 以 治疗 糖尿 病 的 酶 ， 进 一 步 的 药理 学 研究 还 在 进行 中 。 
由 于 栖息 地 的 消失 、 作 为 宠物 而 被 捕 猫 ， 以 及 当地 人 因为 害怕 而 捕杀 等 原因 ， 时 西 哥 念珠 
蜥 蝎 濒 临 灭 绝 。 目 前 ， 它 受 墨 西 可 、 危 地 马 拉 两 国 它 的 栖息 地 一 一 法 律 的 保护 。 
O’Reilly 封面 上 的 许多 动物 都 已 濒临 灭绝 ， 但 它们 的 存在 对 世界 至 关 重 要 。 想 要 了 解 如 何 
帮助 它们 ， 可 以 登录 animals.oreilly.com。 


封面 图 片 来 自 于 Wood 的 Animate Creation。 
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Python 数 据 科 学 手册 


Python 语言 拥有 大 量 可 用 于 存储 、 操 作 和 洞察 数据 的 程序 库 ， 已 然 
成 为 深 受 数据 科学 研究 人 员 推 嵌 的 工具 。 本 书 以 IPython、NumPy、 
Pandas、Matplotlib 和 Scikit-Learn 这 5 个 能 完成 数据 科学 大 部 分 工作 的 基础 
工具 为 主 ， 从 实战 角度 出 发 ， 讲 授 如 何 清洗 和 可 视 化 数据 、 如 何 用 数据 
建立 各 种 统计 学 或 机 器 学 习 模型 等 常见 数据 科学 任务 ， 旨 在 让 与 数据 处 
理 相 关 的 各 领域 的 工作 人 员 具 备 发 现 问题 、 解 决 问题 的 能 力 。 


国 IPython 和 Jupyter: 为 使 用 Python 提供 计算 环境 。 

国 NumPy: 用 ndarray 实 现 高 维 数组 的 高 效 存储 与 操作 。 

国 Pandas: 用 DataFrame 实 现 带 标签 / 列 式 数据 的 高 效 存储 与 操作 。 
加 Matplotlib: 实现 各 种 数据 可 视 化 。 

加 Scikit-Learn: 用 高 效 整洁 的 Python 实现 重要 的 机 器 学 习 算法 。 





Jake VanderPlas，Python 科 学 栈 深 度 用 户 和 开发 者 ， 尤 其 擅长 Python 科 
学 计算 和 数据 可 视 化 ， 是 altair 等 可 视 化 程序 库 的 创建 人 ， 并 为 Scikit- 
Learn、|IPython 等 Python 程序 库 做 了 大 量 贡献 。 现 任 美国 华盛顿 大 学 
eScience 学 院 物 理科 学 研究 院 院 长 。 


“如 果 你 想 学 习 Python 数 据 科 学 方 
面 的 知识 ， 那 么 本 书 是 一 个 不 错 
的 起 点 。 我 用 这 本 书 为 计算 机 专 
业 和 统计 学 专业 的 学 生 授课 ， 展 
获 好 评 。Jake 不 仅 介绍 了 开源 工 
具 的 基础 用 法 ， 还 用 简洁 的 语言 
和 通俗 的 方式 解释 了 数据 科学 的 
概念 、 模 式 和 抽 条 理论 。” 

一 一 Brain Granger 
加 州 理 工 州 立 大 学 物理 学 副 教 
授 、Jupyter 项 目的 共同 开发 者 





“本 书 的 前 半 部 分 集中 讲解 了 数据 
分 析 以 及 科学 计算 所 需 的 基础 
Python 库 ， 后 半 部 分 从 实战 角 
度 用 Python 库 Scikit-Learn 解 决 
了 许多 机 器 学 习 问 题 。 如 果 你 有 
Python 基础 ， 并 打算 学 习 数据 科 
学 ， 那 这 本 书 再 适合 你 不 过 了 。 
有 一 定 经 验 的 Python 数据 分 析 人 
员 也 能 从 本 书 明 了 易 懂 的 示例 和 
讲解 中 得 到 新 体会 。” 
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或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


